Introducción
El pasado día 10/04/97 de 11:30 a 13:30 tuvo lugar la reunión de coordinación sobre Indexación en Madrid dentro de los 3. Grupos de Trabajo de RedIRIS
Orden del día
- Tutorial breve sobre Harvest
- Problemática sobre la indexación
- Líneas de trabajo en el grupo y objetivos
- Configuració inicial propuesta
- Topología de gather y broker, diseño inicial de la red virtual de intercambio de información indexada
Tutorial breve sobre el harvest
- Gatherer
Es la parte que se dedica a la recolección de la información de los servidores, extrae los ítems que necesita, los ordena para generar la información estructurada en formato índice (SOIF) y exporta dicha información. - Broker
Esta parte toma la información de uno o varios gatherers, suprime la información duplicada, indexa incrementalmente y provee un interface WWW para que los usuarios puedan consultar.
¿ Qué es Harvest ?
-
Harvest es un conjunto de utilidades que permiten recoger, extraer, organizar, buscar u replicar información por Internet.
La ventaja que presenta este paquete con respecto a los buscadores tradicionales es que permite exportar la información que han indexado, de manera que otros buscadores no tengan que mirar todas las páginas de nuestro servidor.
Harvest está compuesto por varios módulos de los que destacamos:
Instalación
-
Si se usa el kit que distribuye RedIRIS sólo hay que descomprimir el fichero harvest.1.tar.gz y se creará una estructura bajo /usr/local/harvest con todos los ficheros necesarios para tener varios gatheres y brokers.
Creación de Gather y Broker
-
Existe un programa en /usr/local/harvest/RunHarvest que nos permite crear un gather y un broker. Nos pedirá una serie de datos que podés ver en el fichero /usr/local/harvest/documentacion/RunHarvest.txt
Configuración particular
-
Una vez que tenemos el gather y broker creados podemos configurar algunas cosas más concretas.
Podemos indicar qué datos son los que queremos que extraigan de los documentos basándonos por ejemplo en tags HTML.
Problemática sobre la indexación
Todo el mundo cuando desea encontrar una información específica en intetnet suele usar servidores de empresas comerciales como AltaVista, Yahoo, OpenText, Lycos, InfoSeek, etc. Estas empresas, que viven de la publicidad, se hacen la competencia las unas a las otras, para tener la mayor cantidad de información en sus servidores y se dedican a rastrear la red machacando nuestros servidores web.
Lo que pretendemos es crear un mecanismo por el que los servidores Web sean los que generen su propia información indexada y la compartan con otros servidores con el fin de:
- disminuir la carga de la red por las consultas de los numerosos robots
- evitar la inmensa cantidad de información inútil indexada
- hacer que las búsquedas sean más cómodas al usuario
Esto plantea una problemática ya que:
- Cada centro indexa como quiere (si es que indexan su información)
- Nadie quiere calentarse la cabeza pensando la información que va a indexar y se suele indexar todo el texto
- No se desea tener que modificar las miles de páginas ya escritas para que la indexación sea eficiente
Objetivos y líneas de trabajo en el grupo
Objetivos
- Generales
- Indexación cooperativa entre diferentes servidores para hacer más efectivo el uso de los recursos (especialmente el ancho de banda).
- Crear un jerarquía de distribución de la información indexada
- Selección de la información a indexar
- Proporcionar al usuario final uno o varios puntos de consulta que le garanticen una calidad de la información indexada
- Software
- Utilización de software existente
- Software de dominio público
- Documentación
- Obtener documentacion cómoda y facil para la instalación y configuración de harvest
- Obtener kits con binarios de Harvest para varias plataformas
Duración
La duración de este proyecto está por definir por los participantes dependiendo de la revisión de los objetivos.
Otros
- Se usará una lista de distribucion que se creará para tal efecto.
- Se enviará documento acreditativo de la participación en el grupo de trabajo a los participantes que lo soliciten.
Configuración inicial propuesta
- Estructura propuesta de sistema
- Software a usar: Harvest
- Cada centro que participe ha de tener un gather y un broker.
- Exportara el broker a un centro jerarquicamente superior.
- Estructura de datos
- Cada centro que participe ha de indexar una parte de su servidor Web. La parte de información tendrá que decidirse.
- Sería conveniente introducir algún tipo de metainformación para identificar la procedencia de esa información.
Por ejemplo, RedIRIS ha usado en sus páginas:
lang Son las iniciales de la lengua en la que está escrito el documento date Fecha de publición de la página organization Identifica a la organización a la que pertenece la página author Identifica al autor de la página description Una descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador keywords Palabras clave para identificar el documento Estas palabras clave pueden obtenerse de diferentes formas:
- Generadas a mano por el usuario
El usuario ha de indentificar qué palabra o frases son las susceptibles de poder identificar el documento e introducirlas en el campo META keywords. - Generadas por un programa específico
Se dan unas especificaciones a un programa específico para que busque dentro del documento y extraiga las palabras que nos interesen creando la línea META keywords.
- Generadas a mano por el usuario
Topologia de gather y broker, diseño inicial de la red virtual de intercambio de informacion indexada
Topología general
La topología general que se desea conseguir se muestra en este gráfico
1. A +---------+-----+-----------+ | | | 2. B C Z +-+-+ +---+-----+ +---+------+ | | | | | ... | | | 3. B1 B2 C1 C2 .. CN Z1 Z2 ... ZN
- Cada nodo de los niveles 2 y 3 tendrá por lo menos un gahter (g1) y un broker (b1) específico para el grupo de Trabajo.
- Estos nodos exportarán el broker (b1) a su nodo inmediatamente superior.
- Cada nodo del nivel 2 puede tener un broker (b2) con información local sobre el nodo. En este caso el broker b1 tendrá que englobar la información de los brokers b1 de sus hijos y la de su propio broker local b2.
- El nodo A creará un broker (b0) con la información de los brokers (b1) de los nodos de nivel 2 y la de su propio broker (b2) si lo tuviese.
- El broker b0 será el que se exportará y podrá ser consultado por todo el mundo.
Puede existir algún centro A2 que obtenga el broker (b0) directamente de A para tener un mirror de la información al objeto de repartir la carga de A por las consultas de la gente.
1. A (b0) +-----------+----------+ | | 2. B Z (g,b2,b1) (g,b2,b1) +---+---+ +------+------+ | | | | | 3. B1 B2 Z1 Z2 ... ZN (g,b1) (g,b1) (g,b1) (g,b1) (g,b1)
Topología concreta
Proponemos lo siguiente:
- Los nodos de nivel 2 serán centros en las cabeceras de red
- Los nodos de nivel 3 serán Universidades y Centros de Investigación
- Podrán existir niveles inferiores al 3
- El nodo A inicialmente estará en RedIRIS pero se contempla que puedan existir mirrors
- Podríamos usar inicialmente los siguientes puertos:
Puerto Descripción 8500 Gather GT g Obtiene la información para el GT 8502 Broker local GT b2 Es el broker local basado en el gather. Si es de un nodo de último nivel estará en el puerto 8501 (b1) y se exportará al nivel superior 8501 Broker GT b1 Se basa en el broker local (8502) y en los de los hijos que tenga (8501) y se exportará al nivel superior 8505 Broker total b0 Es el broker que genera el centro A con la información de todos los brokers de tipo 1 Si algún centro está usando estos puertos para otra cosa podemos hacer un listado con los puertos que cada organización esta usando.
Transparencias de la reunión
Aquí podéis ver las transparencias que se mostraron en la reunión en formato HTML.