info:eu-repo/semantics/doctoralThesis
Representaciones vectoriales orientadas a conceptos y estructura para recuperación de información
Autor
MAYA CARRILLO RUIZ
Resumen
Language is one of the most impressive human abilities. Broca and Wernicke,
specialized areas of the brain, suggest to us we genetically have neurological components
for language development. Thus, throughout human history, most knowledge
has been communicated, stored and managed in the form of natural language (Greek,
Latin, English, Spanish, etc.). At the present time, knowledge continues to be treasured
through documents, books and journals, although it is now also stored in digital
form. This factor has turned the computer into an efficient tool for accessing information.
As human beings, we can not only interpret the knowledge stored in those
documents, but also perform logical inferences about content. However for computers,
that information is just a sequence of characters and nothing else. Information
retrieval is a discipline, which aims to develop methods for automatically providing
relevant information to queries submitted by users. The classical information retrieval
techniques represent documents as lists of words without any order or relation among
them. This representation ignores grammatical structure of texts and then eliminates
any possibility of understanding of their content. This research proposes a text representation,
which considers lexical, syntactic and "semantic" aspects of documents;
each linguistic aspect is handled in a separate vector space. Firstly, lexical representation
is captured with traditional bag of words representation; secondly, syntactic, with
a representation from Cognitive Science proposed by T.A. Plate, named holographic
reduced representation, and nally, the "semantic" aspect with the bag of concepts
representation proposed by Sahlgren and C oster. The latter two representations need
a methodology known as random indexing to be dened. Random indexing, proposed
by Kanerva et al, reduces the vector space produced by the bag of words approach.
This research, to the best of our knowledge, is the initial proposal for an information
retrieval model, which integrates the mentioned representations without increasing
the dimension of the vector space. The experimental results in several collections
showed that the integration of these three representations can improve the information
retrieval mean average precision (MAP), with respect to that produced by the
bag of words representation. El lenguaje es una de las habilidades más impresionantes de los seres humanos.
Las áreas especializadas del cerebro, como la de Broca y la de Wernicke, sugieren
que genéticamente tenemos elementos neurológicos para el desarrollo del lenguaje.
Así, a lo largo de la historia de la humanidad, el conocimiento se ha comunicado,
guardado y manejado en forma de lenguaje natural (griego, latín, inglés, español,
etc.). En la época actual el conocimiento sigue atesorándose en documentos, libros,
revistas, aunque ahora se guarda también en forma digital. Este factor ha convertido
a la computadora en una herramienta para acceder de manera eciente a la
información. Como seres humanos podemos interpretar el conocimiento almacenado
en dichos documentos y hacer inferencias lógicas sobre su contenido. Sin embargo,
para las computadoras dicha información es sólo una secuencia de caracteres y nada
más. La recuperación de información es una disciplina cuyo objetivo es desarrollar
métodos para suministrar automáticamente información relevante a solicitud de los
usuarios. Las técnicas clásicas de recuperación de información representan los documentos
como listas de palabras sin ningún orden ni relación. Esta representación
ignora la estructura gramatical de los textos y entonces, elimina cualquier posibilidad
de entender su contenido. La presente investigación propone una representación de
documentos que considera aspectos léxicos, sintácticos y "semánticos", cada aspecto
lingüístico se maneja en un espacio vectorial independiente. Los aspectos léxicos se
capturan con la representación tradicional de bolsa de palabras; los sintácticos, con
una representación tomada de la ciencia cognitiva propuesta por T.A. Plate, llamada
representación holográfica reducida; y finalmente, los aspectos "semánticos" con la
representación de bolsa de conceptos propuesta por Sahlgren y Cöster. Para crear estas
dos últimas representaciones, se utiliza una metodología conocida como indexación
aleatoria propuesta por Kanerva et al., la cual permite reducir el espacio vectorial producido
por la aproximación de bolsa de palabras. Esta investigación, hasta donde se
tiene conocimiento, es la propuesta inicial de un modelo de recuperación de información
que integra las representaciones mencionadas, sin incrementar la dimensión
del espacio vectorial.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA