iris-index

Actividad 01 en iris-index

Instalación y configuración de Herramientas

Índice

Instalación de Harvest 1.5

Creación de un Gatherer con información local

    La idea es tener una zona de cada servidor web que se pueda indexar. Para empezar lo más cómodo será indexar un fichero que contenga 10 o 15 referencias a otros ficheros del servidor. Se intentará que estas referencias sean de temas de la organiación. De esta forma será más cómodo distinguir posteriormente de quien es la información.

    Proponemos crear un fichero llamado i1-index.html que contenga, como hemos comentado, varios links a otras páginas. Ese fichero deberá estar en el directorio principal del web.

    Mostramos ahora un ejemplo de fichero de configuración del Gatherer que tendríamos que crear:

    Gatherer-Name:  Prueba 1 iris-index ORGANIZACION
    Gatherer-Port:  XXXX
    Top-Directory:  /usr/local/harvest/gatherers/i1-index
    
    <RootNodes>
    http://WWWORG/i1-index.html\
            URL=100000\
            Host=1\
            Access=HTTP \
            Depth=2
    </RootNodes>
    
    <LeafNodes>
    # Enter URLs for LeafNodes here
    </LeafNodes>
    

    Fichero i1-index.cf

    Tendréis que sustituir ORGANIZACION por la vuestra y WWWORG por vuestra dirección del servidor. El puerto del gatherer puede ser el que queráis pero me lo tenéis que indicar.

    Una vez tengáis el gatherer corriendo podéis crear el broker y me enviais los puertos donde los tengáis montados para que yo pueda crear el broker total con la información de todos los brokers.

    Ficheros a modificar

    Debido a las pruebas que el grupo ha estado haciendo se ha visto la necesidad de modificar una serie de ficheros para que todas las páginas indexen el mismo tipo de información.

    • /usr/local/harvest/gatherers/i1-index/lib/HTML.sum.tbl

      Ha de contener estas líneas:

      <H1>            headings
      <META:CONTENT>  $NAME
      <TITLE>         title,keywords
      <URL>           ignore
      <HTML>          ignore          # ignore anything that 'falls up'
      

      De esta forma sólo se indexará la información que esté contenida entre los tags <H1>...</H1>, los campos <META>, y el título de la página. Con esto evitamos que los índices se generen muy grandes.

      Si en un futuro se ve la necesidad de aumentar este fichero se hará.

    • /usr/local/harvest/gatherers/i1-index/RunGatherer

      Hay que añadir estas líneas al principio

      LC_CTYPE=es
      export LC_CTYPE
      

Creación de un Broker basado en ese Gatherer

    Para esta misión nos hemos basado en los brokers que han generado los centros que participan en el proyecto. Estos centros han indexado un fichero llamado: /i1-index.html con unas cuantas líneas con links a páginas propias.

    Ficheros a modificar

    Debido a las pruebas que el grupo ha estado haciendo se ha visto la necesidad de modificar una serie de ficheros para que todas las páginas indexen el mismo tipo de información.

    • /usr/local/harvest/brokers/i1-index/RunBroker

      Hay que añadir estas líneas al principio

      LC_CTYPE=es
      export LC_CTYPE
      

    Cada centro genera un gather y un broker y nos ha de comunicar los puertos donde los tienen levantados.

    Se hará pública la dirección donde se encuentra el interface de búsquedas a cada uno de los brokers.

Creación en RedIRIS de un broker que apunte a todos los brokers locales

Creación de interface de consultas a ese Broker final

    Se puede consultar la información indexada de forma distribuida aquí.