info:eu-repo/semantics/masterThesis
Recuperación de información utilizando secuencias frecuentes maximales
Autor
JAVIER VAZQUEZ CUCHILLO
Resumen
The main objective of Information Retrieval (IR) methods is to solve a user's
query that expresses an information need, by retrieving a set of documents,
belonging to a collection, which contain information related to the query. In all IR
methods, it is necessary to use a special representation for documents and
queries, commonly through words using a vector model. Word vectors are not
the only way to represent the documents; also other representations based on ngram
(n consecutive words obtained from the documents) have been used. Both
representations have the disadvantage of generating a large number of terms for
identifying documents, and also the word representation lost the word sequential
order. To solve some of these drawbacks, in this research we propose some
methods for IR, which use Maximal Frequent Sequences (MFS's) -by documentto
represent the documents. A MFS by document is a sequence of words that
frequently appears in the document, and it is not contained in any other frequent
sequence within the same document. The results show that, when the query is a
small set of words, the use of MFS's by document in the proposed IR methods
does not have good results compared against a method based on word
representation (LUCENE), because the documents used to evaluate the IR
methods were very small, and therefore the number of MFS’s in each document
also was very small, moreover, some documents could not be represented
because they did not contain any MFS.
Additionally, we propose an IR method based on MFS’s by document where the
query is a complete document. Using this method, good results were obtained. El objetivo principal de los métodos de Recuperación de Información (RI) es
resolver la consulta de un usuario que expresa una necesidad de información,
recuperando un conjunto de documentos pertenecientes a una colección, que
contienen la información relacionada a dicha consulta. En todos los métodos de
RI es necesario utilizar una forma de representación para los documentos y las
consultas, comúnmente mediante palabras utilizando un modelo vectorial. El uso
de palabras no es la única manera de representar a los documentos, también se
han usado otras formas basadas en n-gramas (n palabras consecutivas
obtenidas de los documentos). Ambas representaciones tienen la desventaja de
generar un gran número de términos para identificar a los documentos, y en el
caso de la representación por palabras además se pierde el orden secuencial.
Para resolver las desventajas anteriores, en este trabajo de investigación se
proponen métodos de RI que utilizan las Secuencias Frecuentes Maximales
(SFM’s) -por documento- para representar los documentos. Una SFM por
documento es una secuencia de palabras que no está contenida en alguna otra
secuencia frecuente dentro del mismo documento. Los resultados muestran que
el uso de SFM’s por documento en los métodos de RI propuestos, donde la
consulta es un conjunto pequeño de palabras, no tienen buenos resultados
comparándolos con un método que utiliza la representación basada en palabras,
ya que los documentos utilizados para evaluar los métodos de RI son muy
pequeños, lo cual provocó que el número de SFM’s en cada documento fuera
reducido.
Adicionalmente, se propone un método de RI basado en SFM por
documento donde la consulta es un documento completo. Utilizando este
método se obtuvieron buenos resultados en la tarea de recuperación de
documentos.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México
Luis Enrique García Barrios; Eduardo Bello Baltazar; Manuel Roberto Parra Vázquez