Servicio de distribución de información indexada por la red (IRIS-INDEX)

gt1997

Introducción
Orden del día
Transparencias de la reunión

Introducción

El pasado día 10/04/97 de 11:30 a 13:30 tuvo lugar la reunión de coordinación sobre Indexación en Madrid dentro de los 3. Grupos de Trabajo de RedIRIS

Orden del día

Tutorial breve sobre Harvest
Problemática sobre la indexación
Líneas de trabajo en el grupo y objetivos
Configuració inicial propuesta
Topología de gather y broker, diseño inicial de la red virtual de intercambio de información indexada

Tutorial breve sobre el harvest

¿ Qué es Harvest ?

La ventaja que presenta este paquete con respecto a los buscadores tradicionales es que permite exportar la información que han indexado, de manera que otros buscadores no tengan que mirar todas las páginas de nuestro servidor.

Harvest está compuesto por varios módulos de los que destacamos:

Gatherer
Es la parte que se dedica a la recolección de la información de los servidores, extrae los ítems que necesita, los ordena para generar la información estructurada en formato índice (SOIF) y exporta dicha información.
Broker
Esta parte toma la información de uno o varios gatherers, suprime la información duplicada, indexa incrementalmente y provee un interface WWW para que los usuarios puedan consultar.

Instalación

harvest.1.tar.gz

/usr/local/harvest

Creación de Gather y Broker

/usr/local/harvest/RunHarvest

/usr/local/harvest/documentacion/RunHarvest.txt

Configuración particular

Problemática sobre la indexación

Todo el mundo cuando desea encontrar una información específica en intetnet suele usar servidores de empresas comerciales como AltaVista, Yahoo, OpenText, Lycos, InfoSeek, etc. Estas empresas, que viven de la publicidad, se hacen la competencia las unas a las otras, para tener la mayor cantidad de información en sus servidores y se dedican a rastrear la red machacando nuestros servidores web.

Lo que pretendemos es crear un mecanismo por el que los servidores Web sean los que generen su propia información indexada y la compartan con otros servidores con el fin de:

disminuir la carga de la red por las consultas de los numerosos robots
evitar la inmensa cantidad de información inútil indexada
hacer que las búsquedas sean más cómodas al usuario

Esto plantea una problemática ya que:

Cada centro indexa como quiere (si es que indexan su información)
Nadie quiere calentarse la cabeza pensando la información que va a indexar y se suele indexar todo el texto
No se desea tener que modificar las miles de páginas ya escritas para que la indexación sea eficiente

Objetivos y líneas de trabajo en el grupo

Objetivos

Generales
- Indexación cooperativa entre diferentes servidores para hacer más efectivo el uso de los recursos (especialmente el ancho de banda).
- Crear un jerarquía de distribución de la información indexada
- Selección de la información a indexar
- Proporcionar al usuario final uno o varios puntos de consulta que le garanticen una calidad de la información indexada
Software
- Utilización de software existente
- Software de dominio público
Documentación
- Obtener documentacion cómoda y facil para la instalación y configuración de harvest
- Obtener kits con binarios de Harvest para varias plataformas

Duración

La duración de este proyecto está por definir por los participantes dependiendo de la revisión de los objetivos.

Otros

Se usará una lista de distribucion que se creará para tal efecto.
Se enviará documento acreditativo de la participación en el grupo de trabajo a los participantes que lo soliciten.

Configuración inicial propuesta

Estructura propuesta de sistema
- Software a usar: Harvest
- Cada centro que participe ha de tener un gather y un broker.
- Exportara el broker a un centro jerarquicamente superior.

Estructura de datos

Cada centro que participe ha de indexar una parte de su servidor Web. La parte de información tendrá que decidirse.

Sería conveniente introducir algún tipo de metainformación para identificar la procedencia de esa información.

Por ejemplo, RedIRIS ha usado en sus páginas:

lang	Son las iniciales de la lengua en la que está escrito el documento
date	Fecha de publición de la página
organization	Identifica a la organización a la que pertenece la página
author	Identifica al autor de la página
description	Una descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador
keywords	Palabras clave para identificar el documento

Estas palabras clave pueden obtenerse de diferentes formas:

Generadas a mano por el usuario
El usuario ha de indentificar qué palabra o frases son las susceptibles de poder identificar el documento e introducirlas en el campo META keywords.
Generadas por un programa específico
Se dan unas especificaciones a un programa específico para que busque dentro del documento y extraiga las palabras que nos interesen creando la línea META keywords.

Topologia de gather y broker, diseño inicial de la red virtual de intercambio de informacion indexada

Topología general

La topología general que se desea conseguir se muestra en este gráfico

 1.                           A
             +----------+-----+---------------+
             |          |                     |
 2.          B          C                     Z 
         +---+-+    +---+-----+        +------+------+
         |     |    |   |     |   ...  |      |      |
 3.      B1    B2   C1  C2 .. CN       Z1     Z2 ... ZN

Cada nodo de los niveles 2 y 3 tendrá por lo menos un gahter (g1) y un broker (b1) específico para el grupo de Trabajo.
Estos nodos exportarán el broker (b1) a su nodo inmediatamente superior.
Cada nodo del nivel 2 puede tener un broker (b2) con información local sobre el nodo. En este caso el broker b1 tendrá que englobar la información de los brokers b1 de sus hijos y la de su propio broker local b2.
El nodo A creará un broker (b0) con la información de los brokers (b1) de los nodos de nivel 2 y la de su propio broker (b2) si lo tuviese.

El broker b0 será el que se exportará y podrá ser consultado por todo el mundo.

Puede existir algún centro A2 que obtenga el broker (b0) directamente de A para tener un mirror de la información al objeto de repartir la carga de A por las consultas de la gente.

 1.                         A (b0)
             +--------------+-------------+
             |                            |
 2.          B                            Z
         (g,b2,b1)                    (g,b2,b1)
         +---+---+                 +------+------+
         |       |                 |      |      |
 3.      B1      B2                Z1     Z2 ... ZN
       (g,b1)  (g,b1)            (g,b1) (g,b1) (g,b1)

Topología concreta

Proponemos lo siguiente:

Los nodos de nivel 2 serán centros en las cabeceras de red
Los nodos de nivel 3 serán Universidades y Centros de Investigación
Podrán existir niveles inferiores al 3
El nodo A inicialmente estará en RedIRIS pero se contempla que puedan existir mirrors

Podríamos usar inicialmente los siguientes puertos:

Puerto			Descripción
8500	Gather GT	g	Obtiene la información para el GT
8502	Broker local GT	b2	Es el broker local basado en el gather. Si es de un nodo de último nivel estará en el puerto 8501 (b1) y se exportará al nivel superior
8501	Broker GT	b1	Se basa en el broker local (8502) y en los de los hijos que tenga (8501) y se exportará al nivel superior
8505	Broker total	b0	Es el broker que genera el centro A con la información de todos los brokers de tipo 1

Si algún centro está usando estos puertos para otra cosa podemos hacer un listado con los puertos que cada organización esta usando.

Transparencias de la reunión

Aquí podéis ver las transparencias que se mostraron en la reunión en formato HTML.

Transp. 0 · Transp. 1 · Transp. 2 · Transp. 3 · Transp. 4 · Transp. 5