iris-index

JT96 - Reunión de Trabajo IRIS-INFO

Reuniones de Trabajo 1996 (Santiago de Compostela)


Reunión IRIS-INFO

Introducción

    La reunión de coordinación se celebró el día 19/11/96 en Santiago de Compostela de 09:30 a 11:30 en la Escuela de Óptica

Orden del día

  1. Grupo de trabajo REC-ES
  2. Presentación de la guía general de registro de recursos
  3. Procedimiento de registro y actualización
  4. Indexación y uso de robots
  5. Grupo de trabajo IRIS-INDEX

Resumen de la Reunión

1. Grupo de trabajo REC-ES

2. Presentación de la guía general de registro de recursos

3. Procedimiento de registro y actualización

4. Indexación y uso de robots

  • Idea General del uso de los robots e indexación

    ¿ Qué es un robot ?

      Un robot es un programa que, recupera documentos de la red, extrae información de los documentos encontrados para encontrar más documentos y extraer la información que almacenarán, organiza la información que han recopilado y permiten que los usuarios puedan hacer búsquedas sobre la misma.

    Uso de robots

      Los robots se usan para:

    • Indexado y búsqueda de información por la red
    • Validación de la sintaxis HTML de las páginas de un servidor
    • Validación de los links que se encuentran activos
    • Servicio de Mirror

    Costo del uso de robots

      No todo son ventajas. El uso de robots tiene un costo asociado:

    • El proveedor de la información usualmente no tiene suficiente control sobre la información que un robot indexa
    • No tenemos control sobre el momento en el que un robot nos va a visitar
    • No tenemos control sobre la carga que nos van a realizar en el servidor
    • Aún hay malas implementaciones de los robots que hacen caso omiso a las especificaciones de control de robots (/robots.txt)

      Existen grupos de trabajo para intentar desarrollar una nueva sintaxis para el fichero de control de robots en el que se incluirán líneas para controlar:

    • Hora en la que se puede visitar el servidor
    • Número máximo de páginas por segundo que un robot puede leer
    • Comentarios para el administrador del robot
    • etc.

  • Alternativas para descubrir recursos en la red
      Está claro que necesitamos usar la red para descubrir recursos. Tenemos dos alternativas, bien un indexado descontrolado o uno controlado.

      Indexado descontrolado y facil

        Esta es la opción más cómoda y más extendida. No tenemos que hacer nada. Puede que suscribir nuestra página a uno de los cientos de buscadores que hay repartidos por el mundo y en poco tiempo nuestro URL estará en la mayoría de las bases de datos de los buscadores.

        El resultado es que cualquiera puede encontrar nuestra página entre un listado de miles de páginas que tienen algo o nada que ver con la nuestra.

      Indexado controlado y coordinado

        En este tipo de indexación el usuario que escribe las páginas ha de hacer un esfuerzo por incluir en las mismas algún tipo de información adicional para este tipo de robots.
        Podemos tratar varios indexadores:

        ALIWEB

        • El usuario ha de escribir la información en forma de índices en un fichero llamado /site.idx
        • Mediante un formulario ha de suscribir a sus servidor Web en ALIWEB
        • ALIWEB se lleva periódicamente el fichero /site.idx y combina las entradas que encuentra en sus bases de datos
        • ALIWEB permite que un usario pueda realizar consultas desde una página web y muestra los resultados
        • Debido a la carga que puede tener el servidor ALIWEB existen otros mirrors

          Este primer intento de indexado controlado en el que el usuario es el que decide la información que se va a indexar se vió seguido de una aplicación más potente y más cómoda para el usuario en cuanto a la seleccíon de la información a indexar. Hablamos de Harvest.

        Harvest

          En este buscador el usuario no ha de escribir el fichero con la información en forma de índice ya que se hace de forma automática analizando las páginas.

          Otra de las ventajas es que la información que se ha generado en forma de índice se puede exportar para que otros buscadores la tengan (y se evite que el servidor web sea consultado por otros buscadores).

          Harvest está compuesto por varios módulos de los que destacamos:

        • Gatherer. Es la parte que se dedica a la recolección de la información de los servidores, extrae los ítems que necesita, los ordena para generar la información estructurada en formato índice (SOIF) y exporta dicha información.
        • Broker. Esta parte toma la infromación de uno o varios gatherers, suprime la información duplicada, indexa incrementalmente y provee un interface WWW para que los usuarios puedan consultar.

        Netscape Catalog Server

          La última versión de Harvest ha sido comprada por Netscape y ha ampliado esta aplicación. Ahora los gatherers se llaman Catalog Robots y los brokers Catalog Server.

  • Selección de la información a indexar
      Nos planteamos la problemática de que tenemos que seleccionar qué información es la que nos identificará la página en la red. Podemos hacerlo de dos formas:

      Selección por el robot

      • Cada robot extrae lo que él quiere con lo que algunos pueden tomar todo el texto, sólo las palabras en negrita, las 100 primeras palabras, etc.
      • Usualmente el indexado está basado en el texto plano
      • Se consigue un indexado confuso que conlleva a que no encontremos facilmente la información que buscamos

      Selección por el usuario

      • Hemos de identificar la información que deseamos que indentifique a nuestro documento
      • Para ello utilizaremos los campos META
      • Se consigue un indexado controlado

        RedIRIS propone una sintaxis inicial para incluir metainformación en las páginas web que ayuden a una buena indexación.

  • Uso de TAGs específicos para facilitar el indexado
      El tag META provee un mecanismo a los autores de páginas web para clarificar sus documentos.

      RedIRIS propone los siguientes tags:

      authorIdentifica al autor de la página
      organizationIdentifica a la organización a la que pertenece la página
      descriptionUna descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador
      languageSon las iniciales de la lengua en la que está escrito el documento
      Publication_DateFecha de publición de la página
      ExpiresFecha de expiración de la página. Se usará para informar al responsable de la misma que ha de cambiar algo en la página puesto que ha expirado
      RepyToDirección de correo a la que enviar un mensaje si la página ha expirado o para cualquier otro tema
      keywordsPalabras clave para identificar el documento

      Estas palabras clave pueden obtenerse de diferentes formas:

      • Generadas a mano por el usuario
        El usuario ha de indentificar qué palabra o frases son las susceptibles de poder identificar el documento e introducirlas en el campo META keywords.

      • Generadas por un programa específico
        Se dan unas especificaciones a un programa específico para que busque dentro del documento y extraiga las palabras que nos interesen creando la línea META keywords.

      Un ejemplo de líneas META pueden ser las de esta página:

      <meta name="language" content="es">
      <meta name="Publication_Date" content="19961008164724">
      <meta name="organization" content="RedIRIS">
      <meta name="author" content="Javier Masa">
      <meta name="keywords" content="IRIS-INFO, Grupo de Trabajo, JT96, iris-info">
      <meta name="description" content="Grupo de trabajo iris-info sobre indexación y
                  uso de robots en las Jornadas Técnicas de RedIRIS 1996 en Santiago de Compostela">
      

5. Grupo de trabajo IRIS-INDEX

  • Estado actual de la indexación en RedIRIS
      Se han realizado pruebas de indexación con Harvest. Se han seleccionado varias partes diferentes del servidor web de RedIRIS y se han creado gatherers y brokers para cada una de ellas.

      Actualmente tenemos:

      • Índice del servidor web de RedIRIS
      • Índice de Recursos I+D de España

      Queremos identificar otros centros que estén usando Harvest como medio de indexación de sus páginas. Si usais Harvest enviadme un mensaje a javier.masa@rediris.es

  • Organización necesaria para la cooperación de robots
      Lo que tenemos claro es que no podemos dejar que todos los buscadores del mundo entren en nuestros servidores a llevarse toda la información que quieran y que no lo hagan de una manera coordinada.

      Proponemos que sea un único robot el que entre en el servidor y sace la información. Para ello deberíamos tener:

      • Se crea un gather que extrae la información del servidor (usando los campos META que hemos previemente rellenado) y genera un fichoro de ínidce (SOIF) que será puesto a la disposición de todo el mundo.
      • Este fichero será publicado vía SOIF/RDM
      • Cualquier broker podrá preguntar por esa información indexada y se la llevará para crear su base de datos
      • Estos brokers pueden, a su vez, publicar sus índices a otros brokers

      Con esto conseguimos que los servidores no estén cargados y que no se extraiga la misma información por cada uno de los robots que entran en nuestro servidor.

  • Identificar un conjunto mínimo de información que se desea indexar
      Vamos a intentar indexar todas las tesis y proyectos fin de carrera que tenemos en la comunidad académico-científica española.

      Para ello hemos de:

      • Identificar varios centros que deseen participar
      • Identificar la información a indexar
      • Ver dónde está esa información
      • Identificar el software para la indexación (harvest ??)

      Hemos de obtener

      • Guía de instalación, configuración y mantenimiento del software usado para la indexación
      • Piloto de indexación con 4 o 5 centros como máximo para experimentación
      • Cooperación entre esos centros y un servidor central

  • Pruebas de cooperación sobre indexación
      Ya hemos realizado pruebas de cooperación y exportación de información estructurada en forma de índices entre RedIRIS y el CICA.

      Hemos creado un gather en RedIRIS con la información de los recursos I+D de España y otro (en el CICA) con información sobre el servidor web de dicha organización.

      Hemos creado un broker que ha recogido la información de los dos gathers para crear una sola base de datos y hemos obtenido resultados satisfactorios.

Transparencias de la Reunión

    Puede obtener las transparencias de la reunión en formato PowerPoint o en postscript en el servidor ftp de RedIRIS.