JT96 - Reunión de Trabajo IRIS-INFO

Reuniones de Trabajo 1996 (Santiago de Compostela)

Introducción
Orden del día de la Reunión de Trabajo
Resumen de la reunión
Transparencias de la reunión

Reunión IRIS-INFO
Introducción
La reunión de coordinación se celebró el día 19/11/96 en Santiago de Compostela de 09:30 a 11:30 en la Escuela de Óptica

Orden del día

Grupo de trabajo REC-ES
Presentación de la guía general de registro de recursos
Procedimiento de registro y actualización
Indexación y uso de robots

Idea General del uso de los robots e indexación
Alternativas para descubrir recursos en la red
Selección de la información a indexar
Uso de TAGs específicos para facilitar el indexado

Grupo de trabajo IRIS-INDEX

Estado actual de la indexación en RedIRIS
Organización necesaria para la cooperación de robots
Identificar un conjunto mínimo de información que se desea indexar
Pruebas de cooperación sobre indexación

Resumen de la Reunión
1. Grupo de trabajo REC-ES

2. Presentación de la guía general de registro de recursos

3. Procedimiento de registro y actualización

4. Indexación y uso de robots
Idea General del uso de los robots e indexación
¿ Qué es un robot ?
Un robot es un programa que, recupera documentos de la red, extrae información de los documentos encontrados para encontrar más documentos y extraer la información que almacenarán, organiza la información que han recopilado y permiten que los usuarios puedan hacer búsquedas sobre la misma.

Uso de robots
Los robots se usan para:
Indexado y búsqueda de información por la red
Validación de la sintaxis HTML de las páginas de un servidor
Validación de los links que se encuentran activos
Servicio de Mirror

Costo del uso de robots
No todo son ventajas. El uso de robots tiene un costo asociado:
El proveedor de la información usualmente no tiene suficiente control sobre la información que un robot indexa
No tenemos control sobre el momento en el que un robot nos va a visitar
No tenemos control sobre la carga que nos van a realizar en el servidor
Aún hay malas implementaciones de los robots que hacen caso omiso a las especificaciones de control de robots (/robots.txt)
Existen grupos de trabajo para intentar desarrollar una nueva sintaxis para el fichero de control de robots en el que se incluirán líneas para controlar:
Hora en la que se puede visitar el servidor
Número máximo de páginas por segundo que un robot puede leer
Comentarios para el administrador del robot
etc.

Alternativas para descubrir recursos en la red
Está claro que necesitamos usar la red para descubrir recursos. Tenemos dos alternativas, bien un indexado descontrolado o uno controlado.
Indexado descontrolado y facil
Esta es la opción más cómoda y más extendida. No tenemos que hacer nada. Puede que suscribir nuestra página a uno de los cientos de buscadores que hay repartidos por el mundo y en poco tiempo nuestro URL estará en la mayoría de las bases de datos de los buscadores.
El resultado es que cualquiera puede encontrar nuestra página entre un listado de miles de páginas que tienen algo o nada que ver con la nuestra.

Indexado controlado y coordinado
En este tipo de indexación el usuario que escribe las páginas ha de hacer un esfuerzo por incluir en las mismas algún tipo de información adicional para este tipo de robots.
Podemos tratar varios indexadores:
ALIWEB

El usuario ha de escribir la información en forma de índices en un fichero llamado /site.idx
Mediante un formulario ha de suscribir a sus servidor Web en ALIWEB
ALIWEB se lleva periódicamente el fichero /site.idx y combina las entradas que encuentra en sus bases de datos
ALIWEB permite que un usario pueda realizar consultas desde una página web y muestra los resultados
Debido a la carga que puede tener el servidor ALIWEB existen otros mirrors
Este primer intento de indexado controlado en el que el usuario es el que decide la información que se va a indexar se vió seguido de una aplicación más potente y más cómoda para el usuario en cuanto a la seleccíon de la información a indexar. Hablamos de Harvest.

Harvest
En este buscador el usuario no ha de escribir el fichero con la información en forma de índice ya que se hace de forma automática analizando las páginas.
Otra de las ventajas es que la información que se ha generado en forma de índice se puede exportar para que otros buscadores la tengan (y se evite que el servidor web sea consultado por otros buscadores).
Harvest está compuesto por varios módulos de los que destacamos:
Gatherer. Es la parte que se dedica a la recolección de la información de los servidores, extrae los ítems que necesita, los ordena para generar la información estructurada en formato índice (SOIF) y exporta dicha información.
Broker. Esta parte toma la infromación de uno o varios gatherers, suprime la información duplicada, indexa incrementalmente y provee un interface WWW para que los usuarios puedan consultar.

Netscape Catalog Server
La última versión de Harvest ha sido comprada por Netscape y ha ampliado esta aplicación. Ahora los gatherers se llaman Catalog Robots y los brokers Catalog Server.

Selección de la información a indexar
Nos planteamos la problemática de que tenemos que seleccionar qué información es la que nos identificará la página en la red. Podemos hacerlo de dos formas:
Selección por el robot

Cada robot extrae lo que él quiere con lo que algunos pueden tomar todo el texto, sólo las palabras en negrita, las 100 primeras palabras, etc.
Usualmente el indexado está basado en el texto plano
Se consigue un indexado confuso que conlleva a que no encontremos facilmente la información que buscamos

Selección por el usuario

Hemos de identificar la información que deseamos que indentifique a nuestro documento
Para ello utilizaremos los campos META
Se consigue un indexado controlado
RedIRIS propone una sintaxis inicial para incluir metainformación en las páginas web que ayuden a una buena indexación.
Uso de TAGs específicos para facilitar el indexado
El tag META provee un mecanismo a los autores de páginas web para clarificar sus documentos.
RedIRIS propone los siguientes tags:

author Identifica al autor de la página

organization Identifica a la organización a la que pertenece la página

description Una descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador

language Son las iniciales de la lengua en la que está escrito el documento

Publication_Date Fecha de publición de la página

Expires Fecha de expiración de la página. Se usará para informar al responsable de la misma que ha de cambiar algo en la página puesto que ha expirado

RepyTo Dirección de correo a la que enviar un mensaje si la página ha expirado o para cualquier otro tema

keywords Palabras clave para identificar el documento

Estas palabras clave pueden obtenerse de diferentes formas:

Generadas a mano por el usuario
El usuario ha de indentificar qué palabra o frases son las susceptibles de poder identificar el documento e introducirlas en el campo META keywords.
Generadas por un programa específico
Se dan unas especificaciones a un programa específico para que busque dentro del documento y extraiga las palabras que nos interesen creando la línea META keywords.

Un ejemplo de líneas META pueden ser las de esta página:
<meta name="language" content="es">
<meta name="Publication_Date" content="19961008164724">
<meta name="organization" content="RedIRIS">
<meta name="author" content="Javier Masa">
<meta name="keywords" content="IRIS-INFO, Grupo de Trabajo, JT96, iris-info">
<meta name="description" content="Grupo de trabajo iris-info sobre indexación y
            uso de robots en las Jornadas Técnicas de RedIRIS 1996 en Santiago de Compostela">
5. Grupo de trabajo IRIS-INDEX

Estado actual de la indexación en RedIRIS
Se han realizado pruebas de indexación con Harvest. Se han seleccionado varias partes diferentes del servidor web de RedIRIS y se han creado gatherers y brokers para cada una de ellas.
Actualmente tenemos:

Índice del servidor web de RedIRIS
Índice de Recursos I+D de España

Queremos identificar otros centros que estén usando Harvest como medio de indexación de sus páginas. Si usais Harvest enviadme un mensaje a javier.masa@rediris.es

Organización necesaria para la cooperación de robots
Lo que tenemos claro es que no podemos dejar que todos los buscadores del mundo entren en nuestros servidores a llevarse toda la información que quieran y que no lo hagan de una manera coordinada.
Proponemos que sea un único robot el que entre en el servidor y sace la información. Para ello deberíamos tener:

Se crea un gather que extrae la información del servidor (usando los campos META que hemos previemente rellenado) y genera un fichoro de ínidce (SOIF) que será puesto a la disposición de todo el mundo.
Este fichero será publicado vía SOIF/RDM
Cualquier broker podrá preguntar por esa información indexada y se la llevará para crear su base de datos
Estos brokers pueden, a su vez, publicar sus índices a otros brokers

Con esto conseguimos que los servidores no estén cargados y que no se extraiga la misma información por cada uno de los robots que entran en nuestro servidor.

Identificar un conjunto mínimo de información que se desea indexar
Vamos a intentar indexar todas las tesis y proyectos fin de carrera que tenemos en la comunidad académico-científica española.
Para ello hemos de:

Identificar varios centros que deseen participar
Identificar la información a indexar
Ver dónde está esa información
Identificar el software para la indexación (harvest ??)

Hemos de obtener

Guía de instalación, configuración y mantenimiento del software usado para la indexación
Piloto de indexación con 4 o 5 centros como máximo para experimentación
Cooperación entre esos centros y un servidor central

Pruebas de cooperación sobre indexación
Ya hemos realizado pruebas de cooperación y exportación de información estructurada en forma de índices entre RedIRIS y el CICA.
Hemos creado un gather en RedIRIS con la información de los recursos I+D de España y otro (en el CICA) con información sobre el servidor web de dicha organización.
Hemos creado un broker que ha recogido la información de los dos gathers para crear una sola base de datos y hemos obtenido resultados satisfactorios.

Transparencias de la Reunión

Puede obtener las transparencias de la reunión en formato PowerPoint o en postscript en el servidor ftp de RedIRIS.

author	Identifica al autor de la página
organization	Identifica a la organización a la que pertenece la página
description	Una descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador
language	Son las iniciales de la lengua en la que está escrito el documento
Publication_Date	Fecha de publición de la página
Expires	Fecha de expiración de la página. Se usará para informar al responsable de la misma que ha de cambiar algo en la página puesto que ha expirado
RepyTo	Dirección de correo a la que enviar un mensaje si la página ha expirado o para cualquier otro tema
keywords	Palabras clave para identificar el documento