Índice
- Instalación de Harvest 1.5
- Creación de un Gatherer con información local
- Creación de un Broker basado en ese Gatherer
- Creación en RedIRIS de un broker que apunte a todos los brokers locales
- Creación de interface de consultas a ese Broker final
El software que vamos a usar es la versión 1.5 de Harvest. Podéis obtenerla de nuestro ftp en la dirección:
ftp://ftp.rediris.es/rediris/indexacion/software/harvest-1.5-src.tar.gz
Creación de un Gatherer con información local
- /usr/local/harvest/gatherers/i1-index/lib/HTML.sum.tbl
Ha de contener estas líneas:
<H1> headings <META:CONTENT> $NAME <TITLE> title,keywords <URL> ignore <HTML> ignore # ignore anything that 'falls up'
De esta forma sólo se indexará la información que esté contenida entre los tags <H1>...</H1>, los campos <META>, y el título de la página. Con esto evitamos que los índices se generen muy grandes.
Si en un futuro se ve la necesidad de aumentar este fichero se hará.
- /usr/local/harvest/gatherers/i1-index/RunGatherer
Hay que añadir estas líneas al principio
LC_CTYPE=es export LC_CTYPE
La idea es tener una zona de cada servidor web que se pueda indexar. Para empezar lo más cómodo será indexar un fichero que contenga 10 o 15 referencias a otros ficheros del servidor. Se intentará que estas referencias sean de temas de la organiación. De esta forma será más cómodo distinguir posteriormente de quien es la información.
Proponemos crear un fichero llamado i1-index.html que contenga, como hemos comentado, varios links a otras páginas. Ese fichero deberá estar en el directorio principal del web.
Mostramos ahora un ejemplo de fichero de configuración del Gatherer que tendríamos que crear:
Gatherer-Name: Prueba 1 iris-index ORGANIZACION Gatherer-Port: XXXX Top-Directory: /usr/local/harvest/gatherers/i1-index <RootNodes> http://WWWORG/i1-index.html\ URL=100000\ Host=1\ Access=HTTP \ Depth=2 </RootNodes> <LeafNodes> # Enter URLs for LeafNodes here </LeafNodes> |
Fichero i1-index.cf
Tendréis que sustituir ORGANIZACION por la vuestra y WWWORG por vuestra dirección del servidor. El puerto del gatherer puede ser el que queráis pero me lo tenéis que indicar.
Una vez tengáis el gatherer corriendo podéis crear el broker y me enviais los puertos donde los tengáis montados para que yo pueda crear el broker total con la información de todos los brokers.
Ficheros a modificar
Debido a las pruebas que el grupo ha estado haciendo se ha visto la necesidad de modificar una serie de ficheros para que todas las páginas indexen el mismo tipo de información.
Creación de un Broker basado en ese Gatherer
- /usr/local/harvest/brokers/i1-index/RunBroker
Hay que añadir estas líneas al principio
LC_CTYPE=es export LC_CTYPE
Para esta misión nos hemos basado en los brokers que han generado los centros que participan en el proyecto. Estos centros han indexado un fichero llamado: /i1-index.html con unas cuantas líneas con links a páginas propias.
Ficheros a modificar
Debido a las pruebas que el grupo ha estado haciendo se ha visto la necesidad de modificar una serie de ficheros para que todas las páginas indexen el mismo tipo de información.
Cada centro genera un gather y un broker y nos ha de comunicar los puertos donde los tienen levantados.
Se hará pública la dirección donde se encuentra el interface de búsquedas a cada uno de los brokers.
Creación en RedIRIS de un broker que apunte a todos los brokers locales
-
Utilizando el fichero de configuración
/usr/local/harvest/brokers/i1-index/admin/Collection.conf
se ha creado el broker que obtiene la información de los centros que participan
en el proyecto.
Mostramos los logs del Broker de la generación del broker global
Creación de interface de consultas a ese Broker final
-
Se puede consultar la información indexada de forma distribuida
aquí.