Resumen de la reunión iris-search - Madrid 07/05/1998
Consejo Superior de Investigaciones Cientificas
Salón Jorge Manrique
===============================================================================
Listado de Asistentes
===============================================================================
Nombre Organizacion e-mail
------------------------------------------------------------------------------
Alejandro Redondo Escobar ALCALA alejandro.redondo@alcala.es
Asuncion Lopez Beltran ALCALA asun.lopez@comunic.alcala.es
Rosario Izquierdo CEDEX charo@cedex.es
J. M. Sanchez Bretones CICA breton@cica.es
Javier Garces Asensio EHU lgsgaasj@lg.ehu.es
Alfonso Jimenez Cantos GVA ajimenez@cap.gva.es
Inma Sanchez Plaza GVA inma@gva.es
Representante de la GVA GVA eliminado a petición de la persona
Manuel Gonzalez Senent GVA mgonzalez@gva.es
Javier Massa REDIRIS javier.masa@rediris.es
Oscar Gonzalez Garcia UAB oscar.gonzalez@uab.es
Juan Antonio Martinez Carrascal UAB JoanAntoni.martinez@uab.es
Nicolas Velazquez Campoy UAM nicolas.velazquez@uam.es
Antonio Benitez Olmo UCA x500@uca.es
Manuel Hernandez Urrea UCM chisco@gac.ucm.es
Alfonso Lopez Murcia UM alfonso@fcu.um.es
Francisco J. Garcia Bolao UNAV kgarcia@unav.es
Irene Gutierrez UNICAN x500@unican.es,
gutierri@cc.unican.es
Begoña Garcia Florez UNILEON bego@unileon.es
Loreto Plana Galiano UNIZAR loreto@posta.unizar.es
Eulalia Capote UPM lali@ccupm.upm.es
Jesus Encabo UPM jesus@ccupm.upm.es
Ana Rodriguez Mazkiaran UPNA arm@upna.es
Vicent Benet Gilaber UPV vbenet@cc.upv.es
Antonio Perez Casas USC sranpeca@usc.es
La dirección de Asunción López parece que no es esta:
asun.lopez@comunic.alcala.es
Por favor si alguien conoce la correcta que me la diga
===============================================================================
Indice de la reunión
===============================================================================
Parte I
1. Cambios en el directorio para el soporte de búsquedas integradas
mediante LDAP
1.1 El cliente realiza la búsqueda
1.2 Búsqueda en una organización que mantiene alias a todas las
organizaciones de c=ES
1.3 Búsquedas en un servidor que mantiene una réplica de todas las
entradas de c=ES
2. Otras Opciones
2.1 Servicio Piloto NameFLOW LDAP
2.2 Red de Servidores Whois++
3. Herramientas y Software
3.1 Net_LDAPapi-1.40
3.2 Web500gw-2.1b2
3.3 Digger 2.0
3.4 IC-4.0
Parte II
1. Metainformación
1.1 Posibilidades de inclusión de la metainformación a usar en HTML
1.2 Herramientas
2. Piloto de indexación real
3. Otras Opciones
4. Herramientas
4.1 Desarrolladas en iris-index
4.2 Otras
===============================================================================
Parte I
===============================================================================
1. Cambios en el directorio para el soporte de búsquedas integradas
mediante LDAP
-------------------------------------------------------------------
A menudo tenemos la necesidad de realizar búsquedas de datos de personas en
el directorio y no conocemos la ubicación física de la misma. Sería interesante
poder realizar búsquedas a nivel c=ES.
Se barajaron 3 posibilidades:
1.1 El cliente realiza la búsqueda
El proceso sería el siguiente:
- El cliente se conecta [IRIS-SEARCH-9805-01] al servidor
- Lee todas las organizaciones de c=ES
- Busca en cada organización conectandose a los DSAs que las mantienen
- Ordena los resultados que éstos le envían
- Los muestra al usuario
Solo tenemos un cliente que realice esta tarea. Es el programa "de"
que se ejecuta desde la cuenta "directorio".
1.2 Búsqueda en una organización que mantiene alias a todas las organizaciones
de c=ES
Crearemos una organización, c=ES@o=alias por ejemplo, que contendrá alias a
todas las organizaciones de c=ES.
Cuando alguien realice una búsqueda bajo esta organización se realizarán
búsquedas en todos los DSAs.
1.3 Búsquedas en un servidor que mantiene una réplica de todas las entradas
de c=ES [IRIS-SEARCH-9805-02]
Crearemos un servidor LDAP que mantenga la misma estructura de datos que existe
en c=ES, aunque menos atributos.
Se copiarán periodicamente los datos de todos los DSAs de España en ese
servidor LDAP utilizando algún mecanismo [IRIS-SEARCH-9805-03] de réplica.
Las búsquedas las realizaremos sobre este servidor LDAP
2. Otras Opciones
-----------------
2.1 Servicio Piloto NameFLOW LDAP
Debido a los problemas del software X.500 versión 1993 se ha decidio realizar
un piloto de directorio basado en servidores LDAP.
Los objetivos son:
- Evolucionar hacia una arquitectura basada en productos baratos, abierto,
fáciles de manejar, de ampliar, etc.
- Proporcionar índices de la información que contiene el directorio para
agilizar las búsquedas
- Proporcionar compatibilidad con las versiones Quipu (88) si fuese necesario
Vamos a necesitar robots LDAP que extraigan la información de estos índices
generados en cada uno de los servidores LDAP y mecanimos para el intercambio
e indexación de los mismos.
2.2 Red de Servidores Whois++
Otra posible opción será el paso a una estructura de servidores Whois++
Un servidor Whois++ se basa en una base de datos que está compuesta por una
serie de plantillas estandarizadas de conjuntos ordenados de pares
atributos-valor.
Cada registro está estructurado dentro de una plantilla y tiene un identificador
único. Cada servidor Whois++ necesita un identificador único en Internet.
Cada servidor Whois++ extrae un índice o centroide de la información que
contiene y genera una base de conocimiento que exportará a un servidor
Whois++ que contiene índices.
Una red de servidores Whois++ estará formada por servidores de base de datos
que contienen las plantillas rellenas y por servidores de índices que
contienen la base de conocimiento y punteros hacia otros servidores de índice
o servidores de base de datos.
Un servidor de índices puede tomar una pregunta realizada por un usuario y
buscar en su colección de índices para determinar los servidores que mantienen
registros que pueden coincidir con la pregunta. Una vez hecho esto puede
notificar al cliente los siguientes servidores con los que ha de contactar
para enviarles la pregunta.
Se ha planteado montar un pequeño grupo de trabajo para probar una red
de servidores Whois++ pero no ha salido nadie voluntario
3. Herramientas y Software
--------------------------
3.1 Net_LDAPapi-1.40 [IRIS-SEARCH-9805-04]
Disponemos de una librería en Perl que nos permite acceder al directorio
mediante LDAP. Uno de los ejemplos es una pasarela web-LDAP
ftp://ftp.rediris.es/rediris/x500/software/unix/ldap/Net-LDAPapi-1.40.tar.gz
3.2 Web500gw-2.1b2
RedIRIS está colaborando con Frank Richter para modificar la pasarela
web a LDAP y para la traducción de la misma [IRIS-SEARCH-9805-05].
Una de las tareas que pretende realizar es la modificación de la manera
de llamar a la pasarela para que el URL sea de tal forma que un robot
no pueda indexarlo y así hacer que no entren a indexar el directorio X.500
ftp://ftp.rediris.es/rediris/x500/software/unix/ldap/web500gw-2.1b2.tar.Z
3.3 Digger 2.0
Es el software que hemos usado para montar el servidor de prueba de Whois++
3.4 IC-4.0
Tenemos la última versión del software de IC. En pocos días estará
disponible para que todos los usuarios puedan llevarsela. Se ha
decidido que se va a suministrar como un fichero tar comprimido y luego
encriptado.
La versión para Windows NT se pondrá en otro fichero tar.
Los manuales se suministrarán en un fichero tar separado.
===============================================================================
Parte II
===============================================================================
1. Metainformación
------------------
Se ha comentado el trabajo realizado en el grupo de trabajo para encontrar
un conjunto de metas que nos definan los recursos que deseamos indexar.
Vamos a usar los 15 elementos definidos por el grupo Dublin Core.
Aunque estos 15 elementos admiten cualificadores no vamos a usarlos en
un primer paso debido a que el software que usaremos para indexar (Harvest)
no se encuentra totalmente preparado para ello y debido a que existe un grupo
de trabajo tratando de estandarizar estos subelementos de cualificación.
Hemos de generar un documento [IRIS-SEARCH-9805-06] en castellano donde
se definan los 15 elementos. Una vez definido este documento lo registraremos
en la organización Metadata.Net para que sirva como referencia para los
autores de páginas en castellano.
1.1 Posibilidades de inclusión de la metainformación a usar en HTML
Hemos analizado tres posibilidades y debido a los cambios producidos en las
especificaciones de HTML4 tendremos que usar este formato:
Hemos tenido que prescindir del elemento TYPE="xxx" ya que no se
ha incorporado en el estandar HTML4. En su lugar se puede cualificar el
nombre del meta añadiendo ".yyy" al elemento NAME.
Ejemplo:
Hemos quedado en no cualificar los elementos de Dublin Core ya que existe
un grupo de trabajo tratando de estandarizar estos subelementos de
cualificación.
1.2 Herramientas
Con estos cambios queda claro que hemos de actualizar nuestras herramientas
de ayuda para la inclusión de metainformación en las páginas.
- Hemos de adaptar MetaWebber [IRIS-SEARCH-9805-07] a la nueva estructura
de DC
- Podemos utilizar herramientas que ayuden a la generación de la
metainformación de forma automática
http://www.rediris.es/si/iris-index/herramientas/#otros
- Usar herramientas generadas en RedIRIS [IRIS-SEARCH-9805-08] para
el volcado controlado de información en un servidor Web incorporando
metainformación.
Parece claro que para que lleguemos a buen fin no podemos estar cambiando
de formato cada cierto tiempo. Decidimos quedarnos con los 15 metas de DC
sin cualificar y no cambiaremos.
2. Piloto de indexación real
----------------------------
Una vez que tenemos definido el formato de metainformación vamos a realizar
un piloto de indexación con información válida. [IRIS-SEARCH-9805-09]
El objetivo principal es indexar información que posteriormente pueda
ser encontrada con búsquedas por metainformación.
Se indexará:
- (RedIRIS)
Páginas del registro de recursos de RedIRIS
- listas de distribución
- servidores web
- bibliotecas
- (Los centros participantes)
Páginas del piloto iris-index
- Usando metainformación en formato DC
- Palabras entre