Reuniones de Trabajo 1996 (Santiago de Compostela)
- Introducción
- Orden del día de la Reunión de Trabajo
- Resumen de la reunión
- Transparencias de la reunión
Reunión IRIS-INFOIntroducción
La reunión de coordinación se celebró el día 19/11/96 en Santiago de Compostela de 09:30 a 11:30 en la Escuela de Óptica
Orden del día
- Grupo de trabajo REC-ES
- Presentación de la guía general de registro de recursos
- Procedimiento de registro y actualización
- Indexación y uso de robots
- Grupo de trabajo IRIS-INDEX
1. Grupo de trabajo REC-ES
2. Presentación de la guía general de registro de recursos
3. Procedimiento de registro y actualización
4. Indexación y uso de robots
- Idea General del uso de los robots e indexación
¿ Qué es un robot ?
Un robot es un programa que, recupera documentos de la red, extrae información de los documentos encontrados para encontrar más documentos y extraer la información que almacenarán, organiza la información que han recopilado y permiten que los usuarios puedan hacer búsquedas sobre la misma.
Uso de robots
Los robots se usan para:
- Indexado y búsqueda de información por la red
- Validación de la sintaxis HTML de las páginas de un servidor
- Validación de los links que se encuentran activos
- Servicio de Mirror
Costo del uso de robots
No todo son ventajas. El uso de robots tiene un costo asociado:
- El proveedor de la información usualmente no tiene suficiente control sobre la información que un robot indexa
- No tenemos control sobre el momento en el que un robot nos va a visitar
- No tenemos control sobre la carga que nos van a realizar en el servidor
- Aún hay malas implementaciones de los robots que hacen caso omiso a las especificaciones de control de robots (/robots.txt)
Existen grupos de trabajo para intentar desarrollar una nueva sintaxis para el fichero de control de robots en el que se incluirán líneas para controlar:
- Hora en la que se puede visitar el servidor
- Número máximo de páginas por segundo que un robot puede leer
- Comentarios para el administrador del robot
- etc.
- Alternativas para descubrir recursos en la red
Está claro que necesitamos usar la red para descubrir recursos. Tenemos dos alternativas, bien un indexado descontrolado o uno controlado.
Indexado descontrolado y facil
Esta es la opción más cómoda y más extendida. No tenemos que hacer nada. Puede que suscribir nuestra página a uno de los cientos de buscadores que hay repartidos por el mundo y en poco tiempo nuestro URL estará en la mayoría de las bases de datos de los buscadores.
El resultado es que cualquiera puede encontrar nuestra página entre un listado de miles de páginas que tienen algo o nada que ver con la nuestra.
Indexado controlado y coordinado
En este tipo de indexación el usuario que escribe las páginas ha de hacer un esfuerzo por incluir en las mismas algún tipo de información adicional para este tipo de robots.
Podemos tratar varios indexadores:ALIWEB
- El usuario ha de escribir la información en forma de índices en un fichero llamado /site.idx
- Mediante un formulario ha de suscribir a sus servidor Web en ALIWEB
- ALIWEB se lleva periódicamente el fichero /site.idx y combina las entradas que encuentra en sus bases de datos
- ALIWEB permite que un usario pueda realizar consultas desde una página web y muestra los resultados
- Debido a la carga que puede tener el servidor ALIWEB existen otros mirrors
Este primer intento de indexado controlado en el que el usuario es el que decide la información que se va a indexar se vió seguido de una aplicación más potente y más cómoda para el usuario en cuanto a la seleccíon de la información a indexar. Hablamos de Harvest.
Harvest
En este buscador el usuario no ha de escribir el fichero con la información en forma de índice ya que se hace de forma automática analizando las páginas.
Otra de las ventajas es que la información que se ha generado en forma de índice se puede exportar para que otros buscadores la tengan (y se evite que el servidor web sea consultado por otros buscadores).
Harvest está compuesto por varios módulos de los que destacamos:
- Gatherer. Es la parte que se dedica a la recolección de la información de los servidores, extrae los ítems que necesita, los ordena para generar la información estructurada en formato índice (SOIF) y exporta dicha información.
- Broker. Esta parte toma la infromación de uno o varios gatherers, suprime la información duplicada, indexa incrementalmente y provee un interface WWW para que los usuarios puedan consultar.
Netscape Catalog Server
La última versión de Harvest ha sido comprada por Netscape y ha ampliado esta aplicación. Ahora los gatherers se llaman Catalog Robots y los brokers Catalog Server.
- Selección de la información a indexar
Nos planteamos la problemática de que tenemos que seleccionar qué información es la que nos identificará la página en la red. Podemos hacerlo de dos formas:
Selección por el robot
- Cada robot extrae lo que él quiere con lo que algunos pueden tomar todo el texto, sólo las palabras en negrita, las 100 primeras palabras, etc.
- Usualmente el indexado está basado en el texto plano
- Se consigue un indexado confuso que conlleva a que no encontremos facilmente la información que buscamos
Selección por el usuario
- Hemos de identificar la información que deseamos que indentifique a nuestro documento
- Para ello utilizaremos los campos META
- Se consigue un indexado controlado
RedIRIS propone una sintaxis inicial para incluir metainformación en las páginas web que ayuden a una buena indexación.
- Uso de TAGs específicos para facilitar el indexado
El tag META provee un mecanismo a los autores de páginas web para clarificar sus documentos.
RedIRIS propone los siguientes tags:
author Identifica al autor de la página organization Identifica a la organización a la que pertenece la página description Una descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador language Son las iniciales de la lengua en la que está escrito el documento Publication_Date Fecha de publición de la página Expires Fecha de expiración de la página. Se usará para informar al responsable de la misma que ha de cambiar algo en la página puesto que ha expirado RepyTo Dirección de correo a la que enviar un mensaje si la página ha expirado o para cualquier otro tema keywords Palabras clave para identificar el documento Estas palabras clave pueden obtenerse de diferentes formas:
- Generadas a mano por el usuario
El usuario ha de indentificar qué palabra o frases son las susceptibles de poder identificar el documento e introducirlas en el campo META keywords.- Generadas por un programa específico
Se dan unas especificaciones a un programa específico para que busque dentro del documento y extraiga las palabras que nos interesen creando la línea META keywords.Un ejemplo de líneas META pueden ser las de esta página:
<meta name="language" content="es"> <meta name="Publication_Date" content="19961008164724"> <meta name="organization" content="RedIRIS"> <meta name="author" content="Javier Masa"> <meta name="keywords" content="IRIS-INFO, Grupo de Trabajo, JT96, iris-info"> <meta name="description" content="Grupo de trabajo iris-info sobre indexación y uso de robots en las Jornadas Técnicas de RedIRIS 1996 en Santiago de Compostela">5. Grupo de trabajo IRIS-INDEX
- Estado actual de la indexación en RedIRIS
Se han realizado pruebas de indexación con Harvest. Se han seleccionado varias partes diferentes del servidor web de RedIRIS y se han creado gatherers y brokers para cada una de ellas.
Actualmente tenemos:
- Índice del servidor web de RedIRIS
- Índice de Recursos I+D de España
Queremos identificar otros centros que estén usando Harvest como medio de indexación de sus páginas. Si usais Harvest enviadme un mensaje a javier.masa@rediris.es
- Organización necesaria para la cooperación de robots
Lo que tenemos claro es que no podemos dejar que todos los buscadores del mundo entren en nuestros servidores a llevarse toda la información que quieran y que no lo hagan de una manera coordinada.
Proponemos que sea un único robot el que entre en el servidor y sace la información. Para ello deberíamos tener:
- Se crea un gather que extrae la información del servidor (usando los campos META que hemos previemente rellenado) y genera un fichoro de ínidce (SOIF) que será puesto a la disposición de todo el mundo.
- Este fichero será publicado vía SOIF/RDM
- Cualquier broker podrá preguntar por esa información indexada y se la llevará para crear su base de datos
- Estos brokers pueden, a su vez, publicar sus índices a otros brokers
Con esto conseguimos que los servidores no estén cargados y que no se extraiga la misma información por cada uno de los robots que entran en nuestro servidor.
- Identificar un conjunto mínimo de información que se desea indexar
Vamos a intentar indexar todas las tesis y proyectos fin de carrera que tenemos en la comunidad académico-científica española.
Para ello hemos de:
- Identificar varios centros que deseen participar
- Identificar la información a indexar
- Ver dónde está esa información
- Identificar el software para la indexación (harvest ??)
Hemos de obtener
- Guía de instalación, configuración y mantenimiento del software usado para la indexación
- Piloto de indexación con 4 o 5 centros como máximo para experimentación
- Cooperación entre esos centros y un servidor central
- Pruebas de cooperación sobre indexación
Ya hemos realizado pruebas de cooperación y exportación de información estructurada en forma de índices entre RedIRIS y el CICA.
Hemos creado un gather en RedIRIS con la información de los recursos I+D de España y otro (en el CICA) con información sobre el servidor web de dicha organización.
Hemos creado un broker que ha recogido la información de los dos gathers para crear una sola base de datos y hemos obtenido resultados satisfactorios.
Transparencias de la Reunión
Puede obtener las transparencias de la reunión en formato PowerPoint o en postscript en el servidor ftp de RedIRIS.