Reunión de Trabajo RTIRIS-4 en Zaragoza
Introducción
El pasado día 17/11/97 de 11:30 a 13:30 tuvo lugar la reunión del grupo de trabajo iris-index en dentro de las Jornadas Técnicas de RedIRIS 1997 en Zaragoza.
Esta información es un pequeño resumen de lo que estuvimos comentando allí. Si alguien recuerda algo que no aparece y desea que lo incorporemos que nos lo comente.
Orden del día
- Repaso de las actividades realizadas en el grupo iris-index
- Metainformación, formatos de metainformación
- Herramientas de generación de metainformación
- Actividades restantes en el grupo iris-index
- Proyectos relacionados con iris-index
Repaso de las actividades realizadas en el grupo iris-index
-
Dada la proliferación de los buscadores que se dedican a indexar todos nuestros servidores y dada la carga que soportamos decidimos crear una estructura en la que cada centro indexase su información, se la exportase a otros centros y estos a su vez generasen sus índices. De esta forma evitamos que entren en nuestras máquinas a llevarse TODA la información.
- Elección de centros participantes
Se apuntaron varios centros para participar pero sólo cinco lo han hecho activamente.
- Software a usar
- Usado en nuestro entorno para indexar los servidores
- Que permita intercambiar la información indexada
- Que sea de dominio público
Necesitabamos un software que tuviese estas características:
El software que cumple estos requisitos es Harvest. Inicialmente se está usando la versión 1.4 pero se cambia muy pronto a la versión 1.5
- Información a indexar
En principio no nos interesa el tipo ni la cantidad de la información a indexar ya que lo que queremos es probar la jerarquía de intercambio de la información.
Lo que hemos hecho ha sido crear una serie de páginas con poca información en cada uno de los servidores participantes
- Estructura del sistema
- Varios centros recolectan la información de sus servidores con Harvest, como ya estaban haciendo
- Exportan esa información, previamente indexada, a un nodo en un nivel superior en la jerarquía (en RedIRIS)
- Se crea un punto de consulta al sistema en RedIRIS
Se ha creado una estructura simple.
Los objetivos concretos del grupo de trabajo se encuentran en las páginas del grupo.
- Problemas
- Los índices que se han generado han sido muy grandes debido a que se indexa todo el texto, o todas las palabras en negritas o con <H*>, ...
- La información que contenían estos índices era diversa
- No se han indexado correctamente las páginas que contienen caracteres nacionales como "ñ", "á","é","í","ó","ú", ...
- Falta metainformación en muchas de las páginas
Se han dado una serie de problemas como:
- Posibles Soluciones
- Modificar los ficheros:
HTML.Sum.tbl Para indicar que se indexen sólo las palabras del título y las cadenas de la metainformación RunGatherer Para indicar que se indexen los caracteres castellanos RunBroker Para indicar que se indexen los caracteres castellanos - Incorporar metainformación
- Modificar los ficheros:
-
Una vez que hemos visto que la estructura anterior funciona decidimos ampliarla. Teníamos dos opciones, ampliar con información o con más nodos en la estructura.
Tomamos la segunda opción haciendo que un centro que antes indexaba su propio servidor generase un índice de su servidor y de la información indexada de otro servidor
-
Las consultas desde el nivel superior han sido satisfactorias por lo que vemos que se puede expandir la estructura con varios niveles más.
Hemos tenido escasa participación para centros en estos nuevos niveles.
Dejamos por el momento la expansión en niveles mayores y el análisis del rendimiento del sistema para pasar a tratarel tema de la información que vamos a indexar.
-
Una vez que hemos pasado las fases anteriores nos damos cuenta que lo más lógico para conseguir nuestros objetivos es usar metainformación.
En esta fase hemos de decidir qué tipo de metainformación vamos a usar y estamos en el desarrollo de una herramienta que introduzca esta metainformación en las páginas de la manera más automática que podamos.
En la reunión se opta por usar el conjunto de metainformación de la Universidad de Dublin (Dublin Core)
Metainformación, formatos de metainformación
-
El conjunto de metadatas de Dublin Core puede usarse basandose en dos aproximaciones:
- Minimalista
Se basa en usar los 15 elementos que define el Dublin Core - Estructuralista
Se basa en asignar unas cualificaciones a esos elementos.Podemos refinar el significado de un campo
Ej: para refinar el campo autor
<meta name="DC.Creator.PersonalName" content="Javier Masa">Podemos explicar el significado del valor contenido en el campo
Ej: para indicar el formato en el que especificamos el lenguaje de un documento
<meta name="DC.Language" scheme="RFC1766" content="es">
Sería conveniente usar la aproximación minimalista con estos elementos:
1 | DC.title | El nombre que el creador le ha dado al recurso |
2 | DC.creator | La persona o la organización responsable de la creación del recurso |
3 | DC.subject | Las palabras clave con las que podríamos describir el recurso |
4 | DC.description | Un texto que describe el contenido del recurso. En el caso en que exista un abstract, el abstract |
5 | DC.publisher | La entidad responsable de hacer que el recurso esté disponible en la red |
6 | DC.contributor | Personas y Organizaciones que han participado en la creación del recursos sin que sean los autores |
7 | DC.date | Fecha en que el recurso se puso en su forma actual |
8 | DC.type | Categoría del recurso. Por ejemplo. Home page, novela, poema, ... |
9 | DC.format | Se usa para identificar el sofware y el hardware necesario para ver el recurso y trabajar con él. |
10 | DC.identifier | Cadena destinada a identificar unívocamente al recurso. Por ejemplo ISBN, URL, ... |
11 | DC.source | Cadena destinada a identificar unívocamente al trabajo de donde el recurso ha sido obtenido |
12 | DC.language | Idioma en el que está escrito el recurso |
13 | DC.relation | Relaciones que este recurso tiene con otros recursos. Por ejemplo imágenes de un libro, capítulos de un libro, ... |
14 | DC.coverage | Característica espacio/temporal del recurso. Está aún en desarrollo |
15 | DC.rights | Copyright del recurso |
Alguno de los elementos tendremos que expandirlos usando la aproximación estructuralista
Herramientas de generación de metainformación
- Usar un editor WYSIWYG
- Usar editores de texto con posibilidad de salvar a HTML
- Usar un editor convencional y escribir código HTML a mano
- Ha de usar una plantilla con información corporativa e introduzcir dicha metainformación en los documentos de una manera automática.
- Para la información particular de cada página (ej. las claves) sería interesante una herramienta que se recorriese un árbol de directorios y fuese preguntando dicha información para cada documento.
- MetaWebber
MetaWebber introduce metainformación en las páginas y no modifica la apariencia de la misma. La metainformación que introduce es de este tipo:
<meta name="description" content="Primera actividad del GT iris-index"> <meta name="date" content="19970724"> <meta name="expires" content="19971230"> <meta name="reply to" content="masa@rediris.es"> <meta name="organization" content="Centro de Comunicaciones CSIC RedIRIS"> <meta name="locality" content="Madrid, España"> <meta name="author" content="Web-index-Master"> <meta name="keywords" content="RedIRIS, indexación, index"> <meta name="lang" content="es">
Después de la reunión hemos de modificar MetaWebber para que genere las páginas de una forma parecida a esta:
<meta name="DC.Title" content="Actividad 1"> <meta name="DC.Description" content="Primera actividad del GT iris-index"> <meta name="DC.Date" scheme="ANSI.X3.30-1985" content="19970724"> <meta name="DC.Publisher" content="Centro de Comunicaciones CSIC RedIRIS"> <meta name="DC.Creator.PersonalName" content="Web-index-Master"> <meta name="DC.Creator.Address" content="webmaster@rediris.es"> <meta name="DC.Subject" content="RedIRIS, indexación, index"> <meta name="DC.Language" scheme="RFC1766" content="es">
Hemos de ponernos de acuerdo en todos los metas que vamos a usar.
Para abordar este tema estuvimos analizando las diferentes formas que un usuario tiene para generar un documento HTML.
Necesitamos una herramienta que permita ser usada por el administrador del servidor y por el usuario que genera el documento:
RedIRIS ha desarrollado MetaWebber para el grupo de trabajo y puede servirnos para incluir la metainformación corportiva en los documentos
Actividades restantes en el grupo iris-index
-
Al final de la reunión quedan claras las siguientes actividades:
- Decidir el conjunto de los metadata de DC que vamos a usar
- Software
- Kits con binarios de Harvest para diversas plataformas
- Actualizar MetaWebber al conjunto final de metadatas de DC
- Aplicación que permita introducir las claves de un documento de forma interactiva
- Herramienta que genere SOIF directamente a partir de la página (si se puede)
- Documentación
- Documentación para la configuración de Harvest con los resultados del grupo de trabajo iris-index
- Normativa de publicación para la inclusión de metainformación en la páginas web de la RedIRIS y en la jerarquía de indexación
Proyectos relacionados con iris-index
-
RedIRIS ha estado presente en la reunión del grupo de trabajo TF-CHIC en Mayo dentro del JEN8 y comentamos varios de los problemas con los que nos encontramos en nuestro grupo de trabajo.
Allí se presentó la versión 1.5 de Harvest que ha sido desarrollada por la Universidad de Edimburgo.
Uno de los problemas por lo que ha surgido el grupo iris-index es por la necesidad de hacer que los robots no indexen nuestros servidores de la forma que lo hacen. Se ha desarrollado un script llamado BotWatch que permite obtener una lista de los robots que entran en nuestros servidores y de la cantidad de información que se llevan. Sería interesante que empezasemos a usarlo para ver el tanto por ciento de tráfico debido a los robots
Transparencias de la reunión
Podéis ver las transparencias que se presentaron en la reunión en los siguientes formatos:
- PowerPoint 97 - 1021952 bytes
- PowerPoint 95 - 916992 bytes
- PowerPoint 4.0 - 846848 bytes