Tesis de maestría
Recuperación de Información Multilenguaje para Bibliotecas Digitales -Edición Única
Fecha
2009-05-01Autor
Sánchez Chamochin, Erika Leticia
Institución
Resumen
El presente documento se enfoca en las bibliotecas digitales; de manera más
específica, en el servicio de búsqueda y recuperacion de información ya que se le
considera uno de los servicios clave en el desarrollo de éstas. El objetivo general
del presente trabajo consiste en la implementación de la búsqueda multilenguaje en una biblioteca digital aplicando técnicas de recuperación de información. Se usaría la
biblioteca digital PDLib perteneciente al ITESM, de esta manera, el diseno de este
sistema se basa en la arquitectura y componentes de dicha aplicación.
A lo largo de este documento, se explicara el concepto de recuperación de informacion multilenguaje (Cross Lingual Information Retrieval - CLIR), su importancia en la era actual, se definirán las metodologías y técnicas de aplicación, su importancia
en relación con las bibliotecas digitales, las distintas iniciativas o grupos existentes,
así como las clasificaciones y estandares relacionados con el tema.
Se presentaría la estrategia utilizada para implementar la recuperación de información multilenguaje bajo un entorno de biblioteca digital, utilizando un modelo de traducción de máquina y expansión de queries; aprovechando herramientas ya existentes e implementadas en PDLib como lo son el protocolo RELTEX (Relational Text Protocol), con la cual, mediante el uso de la herramienta de recuperación de
información Lucene (IR tool), se puede soportar el uso de campos diníamicos.
Así mismo, se realiza una descripción detallada de aquellos cambios y configuraciones necesarios para el procedimiento de expansión de queries, mediante el API de Google para traducciones; la cual resultó ser una herramienta útil para la
implementación de este tipo de sistemas.
Por último, se describen las pruebas comparativas realizadas con la versión actual
de la biblioteca digital PDLib con el nuevo modelo presentado en esta tesis en un
prototipo funcional para presentar resultados que avalen la eficiencia de dichos puntos.
Estas pruebas se realizan bajo condiciones idénticas para mostrar las ventajas de tener implementado este tipo de recuperación de documentos digitales. A pesar de contar con un limitado número de recursos y las restricciones con respecto al tiempo de respuesta, se puede deducir la eficiencia de contar con este servicio.