info:eu-repo/semantics/masterThesis
Métodos basados en patrones léxicos para la extracción de información
Autor
CLAUDIA PATRICIA ORTA PALACIOS
Resumen
Current information technologies have made possible the storage and access
to large digital document collections, but they still do not facilitate the analysis
of such amounts of information. In order to satisfy this requirement several
text processing tasks have recently emerged. In particular, information
extraction aims to automatically populate databases by identifying and
collecting information pieces from free text documents.
The research works on information extraction are mainly based on the
discovery and application of extraction patterns. These works can be
classified in two main kinds: supervised and not supervised approaches. The
formers make use of labeled texts at the training phase, whereas the later
ones avoid the use of such kind of documents but require the manually
selection and tagging of the discovered extraction patterns. In both cases it is
common to employ syntactic patterns, which make current approaches highly
language dependent.
This work proposes two different not supervised methods for information
extraction. The main difference of these proposals compared with previous
approaches is that they are exclusively based on lexical information, and
therefore they are easily to adapt to different languages. In addition, the
proposed methods incorporate some mechanisms that facilitate the manual
selection and tagging of extraction patterns, making them more easily to
move to different domains. The experimental results show that the success of
these methods depends on the number of used lexical patterns. Las tecnologías de información actuales han hecho posible el
almacenamiento y acceso a grandes colecciones de documentos digitales,
pero estas tecnologías aún no han facilitado el análisis de tales cantidades
de información. Para satisfacer este requerimiento han surgido
recientemente varias tareas de procesamiento de texto. En particular, la
extracción de información tiene como fin poblar automáticamente bases de
datos mediante la identificación y recolección de piezas de información de
documentos de textos libres.
Los trabajos de investigación sobre extracción de información se basan
principalmente en el descubrimiento y aplicación de patrones de extracción.
Estos trabajos pueden ser clasificados en dos clases principales: métodos
supervisados y no-supervisados. El primero hace uso de textos etiquetados
en la fase de entrenamiento, mientras que el último evita el uso de tales
clases de documentos pero requiere la selección manual y el etiquetamiento
de los patrones de extracción descubiertos. En ambos casos es común
emplear patrones sintácticos, los cuales crean métodos actuales altamente
dependientes del lenguaje.
Este trabajo propone dos diferentes métodos supervisados para la extracción
de información. La principal diferencia de dichas propuestas en comparación
con métodos previos es que éstas se basan exclusivamente en información
léxica y por lo tanto, son fácilmente adaptables a diferentes lenguajes.
Además, los métodos propuestos incorporan algunos mecanismos que
facilitan la selección y el etiquetamiento manual de los patrones de
extracción, haciéndolos muchos más fáciles de mover a diferentes dominios.
Los resultados experimentales muestran que el éxito de estos métodos
depende del número de patrones léxicos utilizados
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México
Luis Enrique García Barrios; Eduardo Bello Baltazar; Manuel Roberto Parra Vázquez