Interoperatividad de Sistemas: 2015

Metabuscadores

Un metabuscador es un buscador de buscadores. Una potente herramienta que realiza rastreos por diferentes bases de datos proporcionando una combinación de los mejores resultados. Comúnmente se les denomina robots, arañas o gusanos "crawlers".

A la hora de utilizar los metabuscadores hay que tener en cuenta las diferentes estrategias de búsqueda que tiene cada buscador. Muchas veces el orden de los resultados no tiene en cuenta la relevancia y los muestra según otros los criterios como la coincidencia de palabras claves, velocidad de carga de la página, temática.

¿Cómo funcionan los Metabuscadores?

Cada uno de los motores de metabuscadores funciona de una manera distinta, aunque existe un proceso interno común a todos ellos. Los metabuscadores realizan una base de datos virtual a partir de la información que recopilan de los buscadores normales (los cuales utilizan bases de datos físicas para su propósito).

Partiendo de la búsqueda que pide el usuario, se la mandan a los buscadores (utilizando la interfaz que proporcione cada uno de ellos) y almacenan la información virtualmente basándose en un algoritmo propio del metabuscador. Este algoritmo, y el volumen de buscadores que abarcan - algunos se centran en los buscadores más famosos, mientras que otros incluyen búsquedas en grupos de noticias o buscadores menos utilizados - es lo que realmente distingue a unos metabuscadores de otros (además de la presentación de la información al usuario).

Tipos de Metabuscadores

Metabuscadores: Agregan los resultados de varios motores o directorios para encontrar las páginas más relevantes.

Multibuscadores: No combinan los resultados, solo lanzan la pregunta en varios buscadores. Un multi-buscador es un programa que permite buscar en Internet un mismo contenido en múltiples motores de búsqueda.

Tiene un campo para ingresar el contenido a buscar y múltiples botones para encontrar en diferentes motores de búsqueda como google, yahoo, etc. devolviendo los resultados de cada búsqueda en la misma pantalla o abriendo la búsqueda en el motor de búsqueda seleccionado, pero siempre respetando el formato original del buscador elegido para encontrar el contenido.

Su uso es muy ventajoso por permitirnos acceder a muchos buscadores desde un mismo sitio pero sin tener que ir a sus respectivas páginas para buscar la información por lo que ahorramos tiempo y los resultados de las búsquedas son los mismos que obtendríamos si fuéramos a cada motor de búsqueda a hacer dicha búsqueda. Permitiendo al usuario ahorrar tiempo para encontrar contenidos en internet y simplificar sus búsquedas de información.

Agentes de busqueda: Son metabuscadores instalados localmente. Un agente de búsqueda es un programa que, imitando el comportamiento de una persona y actuando de forma autónoma, recorre automáticamente internet aprovechando la estructura de enlaces de la web. Un agente de búsqueda puede recuperar un documento en particular, o utilizar algún algoritmo de búsqueda que permita recuperar distintos documentos de la web a los que se hace referencia en un documento fuente u origen, o conforme a unos criterios predefinidos anteriormente por sus usuarios.

Un agente de búsqueda puede realizar las siguientes funciones:

Realizar consultas con una velocidad y en un conjunto de fuentes mucho mayor que el posible para un usuario humano.
Consultar a la vez los contenidos de distintos sitios web.
Informar de las actualizaciones que se producen en los sitios web que son de interés.
Agilizar las descargas que se realizan de internet.
Eliminación de correo basura o spam
Búsqueda de noticias conforme a las preferencias.

Recuperación de información inteligente.

La teoría de recuperación de información es una especialidad académica con una (relativamente) larga tradición en Estados Unidos, donde se cultiva en las universidades y los laboratorios por lo menos desde los años 60.

Conceptualmente, la recuperación de información (RI en adelante) es una operación que consiste en la interpretación de una necesidad de información con el fin de seleccionar los documentos más relevantes capaces de solucionarla.

Sin embargo, esta aparente sencillez conceptual encierra diversos problemas cognitivos que distan mucho de ser sencillos, a saber:

identificar y representar necesidades de información.
identificar y representar el conocimiento contenido en documentos.
seleccionar los documentos más relevantes de acuerdo con los dos problemas anteriores.
mostrarlos al usuario.

Fundamentos de recuperación de información.

Según el modelo más aceptado actualmente, la recuperación de información consiste en un proceso en el que intervienen tres elementos:

Una colección de ítemes de información, tales como documentos, que están registrados en un depósito de información (por ejemplo en una base de datos).
Una serie de preguntas que traducen las necesidades de información de los usuarios y, finalmente.
Una función de comparación documentos/preguntas que genera como salida documentos relevantes. Recuperar información, entonces consiste en buscar los documentos que exhiben un mayor parecido con la pregunta.

La hipótesis subyacente en el modelo anterior es que una forma de juzgar la relevancia de un documento es medir su grado de similitud con la pregunta, y que la forma de representar ambas entidades (preguntas y documentos) es mediante el uso de información textual, aunque las entidades en sí mismas no sean textuales.

En general, para comparar el grado de parecido entre dos entidades es necesario identificar algún grupo de propiedades medibles y después establecer un procedimiento que permita calcular cuántas de éstas propiedades comparte ambas entidades.

Archivo RSS

RSS son las siglas de Really Simple Syndication, un formato XML para sindicar o compartir contenido en la web. Se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos. El formato permite distribuir contenidos sin necesidad de un navegador, utilizando un software diseñado para leer estos contenidos RSS tales como Internet Explorer, entre otros (agregador).

Estructura del Archivo RSS

Declaración del tipo de documento:

Cualquier documento XML debe contener inicialmente una línea que defina el tipo de documento y la codificación de caracteres a utilizar:

<?xml version="1.0" encoding="ISO-8859-1" ?>

Tipo de especificación RSS:

A continuación debemos escoger una de las tres especificaciones de RSS que existen.

La versión 2.0 es la que utilizaremos en este ejemplo, ya que es una versión con reglas sencillas y estrictas, se recomienda conocer las distintas especificaciones para escoger la más apropiada para nuestro RSS, esto en caso de querer profundizar más en el mundo del RSS, aunque para dar a conocer cierta información os bastará con las siguientes explicaciones.

Aquí vemos cómo va quedando nuestro código RSS:

<?xml version="1.0" encoding="ISO-8859-1" ?>

</rss>

Todos las demás etiquetas que vamos a utilizar para crear nuestro feed deben situarse entre estas dos de <rss>, porque son las que indican que estamos creando un canal RSS.

Crear el canal RSS

Debemos crear un "canal" en el que introduciremos los contenidos que queremos mostrar a los demás usuarios. Este canal se limita con dos etiquetas <channel> -una de principio y otra de final- a continuación de lo que ya llevamos hecho:

<?xml version="1.0" encoding="ISO-8859-1" ?>

</channel>

</rss>

Elementos estáticos o fijos

Existen distintos elementos estáticos, y sólo tres son obligatorios:

* Título: <title>

* Enlace: <link>

* Descripción: <description>

Estos tres elementos deben describir nuestro canal RSS en general, por lo que el Título hará referencia al nombre de nuestro feed, el Enlace será la URL de nuestro sitio Web y la Descripción informará al usuario del tipo de contenidos que vamos a incluir en el canal RSS.

Estas tres líneas de código se escriben entre las dos etiquetas <channel> que hemos ya creado:

<?xml version="1.0" encoding="ISO-8859-1" ?>

<title>El nombre de nuestro feed RSS</title>

<description>Contenido que vas a ofrecer a los usuarios que lean el RSS</description>

</channel>

</rss>

Elementos dinámicos o items

Puede haber varios de estos elementos en un canal RSS.

Debemos colocar esta información entre las etiquetas <item> </item>. Se sitúan entre las de <channel> </channel> justo después de los elementos fijos.

Obligatoriamente debemos incluir en nuestro canal tres elementos variables, aunque, como en el caso anterior, existen más.

Estos elementos obligatorios vuelven a ser:

* Título: <title>

* Enlace: <link>

* Descripción: <description>

Pero ahora estos elementos describen cada uno de los artículos o informaciones que vamos a ofrecer y cuyo contenido iremos actualizando cada cierto tiempo.

El código para incluir un ítem en nuesto canal RSS sería el siguiente:

<?xml version="1.0" encoding="ISO-8859-1" ?>

<title>El nombre de nuestro feed RSS</title>

<description>Contenido que vas a ofrecer a los usuarios</description>

<item>

<title>Título del artículo del RSS</title>

<description>Contenido de esta información</description>

</item>

</channel>

</rss>

Como guardar el RSS y hacerlo visible.

Una vez creados el canal y los artículos de nuestro feed debemos guardar nuestro código con el nombre que creamos adecuado y con extensión .rss o .xml, ya que aunque sea un documento RSS está escrito en lenguaje XML.

De las dos extensiones, la que más se suele utilizar es .rss, aunque puede ocurrir que si tienes un navegador algo antiguo, no lo pueda leer o que al colgarlo en Internet, algún host no te reconozca el archivo.

Ante cualquiera de estas situaciones, opta por guardarlo como documento XML.

Ejemplo:

Aquí vemos un ejemplo del código RSS según lo explicado hasta ahora:

<?xml version="1.0" encoding="ISO-8859-1" ?>

<description>RSS sencillo</description>

<item>

<title>Definición de RSS</title>

<description>La definición del RSS sencilla e intuitiva</description>

</item>

<item>

....

</item>

</channel>

</rss>

Enlacemos nuestro RSS para que sea accesible

Debes crear un enlace al documento RSS en tu sitio web. Por ejemplo el código que deberías incluir en tu página podría ser este:

En type indicamos el tipo de documento que es. En la propiedad href indicamos el nombre del documento RSS(junto con la ruta de acceso a él si no se encuentra en el mismo directorio que la página donde estamos poniendo el enlace.

Luego, la gente que quiera acceder a este contenido deberá indicar la dirección URI donde está el documento a su agregador de RSS.

Interoperatividad de Sistemas

domingo, 21 de junio de 2015

Metabuscadores

¿Cómo funcionan los Metabuscadores?

Tipos de Metabuscadores

Recuperación de información inteligente.

Archivo RSS

Flujo Informacional.