Métodos basados en patrones léxicos para la extracción de información

CLAUDIA PATRICIA ORTA PALACIOS

dc.contributor	LUIS VILLASEÑOR PINEDA
dc.contributor	MANUEL MONTES Y GOMEZ
dc.creator	CLAUDIA PATRICIA ORTA PALACIOS
dc.date	2008
dc.date.accessioned	2023-07-25T16:21:49Z
dc.date.available	2023-07-25T16:21:49Z
dc.identifier	http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/545
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805763
dc.description	Current information technologies have made possible the storage and access to large digital document collections, but they still do not facilitate the analysis of such amounts of information. In order to satisfy this requirement several text processing tasks have recently emerged. In particular, information extraction aims to automatically populate databases by identifying and collecting information pieces from free text documents. The research works on information extraction are mainly based on the discovery and application of extraction patterns. These works can be classified in two main kinds: supervised and not supervised approaches. The formers make use of labeled texts at the training phase, whereas the later ones avoid the use of such kind of documents but require the manually selection and tagging of the discovered extraction patterns. In both cases it is common to employ syntactic patterns, which make current approaches highly language dependent. This work proposes two different not supervised methods for information extraction. The main difference of these proposals compared with previous approaches is that they are exclusively based on lexical information, and therefore they are easily to adapt to different languages. In addition, the proposed methods incorporate some mechanisms that facilitate the manual selection and tagging of extraction patterns, making them more easily to move to different domains. The experimental results show that the success of these methods depends on the number of used lexical patterns.
dc.description	Las tecnologías de información actuales han hecho posible el almacenamiento y acceso a grandes colecciones de documentos digitales, pero estas tecnologías aún no han facilitado el análisis de tales cantidades de información. Para satisfacer este requerimiento han surgido recientemente varias tareas de procesamiento de texto. En particular, la extracción de información tiene como fin poblar automáticamente bases de datos mediante la identificación y recolección de piezas de información de documentos de textos libres. Los trabajos de investigación sobre extracción de información se basan principalmente en el descubrimiento y aplicación de patrones de extracción. Estos trabajos pueden ser clasificados en dos clases principales: métodos supervisados y no-supervisados. El primero hace uso de textos etiquetados en la fase de entrenamiento, mientras que el último evita el uso de tales clases de documentos pero requiere la selección manual y el etiquetamiento de los patrones de extracción descubiertos. En ambos casos es común emplear patrones sintácticos, los cuales crean métodos actuales altamente dependientes del lenguaje. Este trabajo propone dos diferentes métodos supervisados para la extracción de información. La principal diferencia de dichas propuestas en comparación con métodos previos es que éstas se basan exclusivamente en información léxica y por lo tanto, son fácilmente adaptables a diferentes lenguajes. Además, los métodos propuestos incorporan algunos mecanismos que facilitan la selección y el etiquetamiento manual de los patrones de extracción, haciéndolos muchos más fáciles de mover a diferentes dominios. Los resultados experimentales muestran que el éxito de estos métodos depende del número de patrones léxicos utilizados
dc.format	application/pdf
dc.language	spa
dc.publisher	Instituto Nacional de Astrofísica, Óptica y Electrónica
dc.relation	citation:Orta-Palacios CP
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject	info:eu-repo/classification/Agrupación de patrones/Pattern clustering
dc.subject	info:eu-repo/classification/La coincidencia de patrones/Pattern matching
dc.subject	info:eu-repo/classification/Extracción de información/Information extraction
dc.subject	info:eu-repo/classification/cti/7
dc.subject	info:eu-repo/classification/cti/33
dc.subject	info:eu-repo/classification/cti/3304
dc.subject	info:eu-repo/classification/cti/120312
dc.subject	info:eu-repo/classification/cti/120312
dc.title	Métodos basados en patrones léxicos para la extracción de información
dc.type	info:eu-repo/semantics/masterThesis
dc.type	info:eu-repo/semantics/acceptedVersion
dc.audience	students
dc.audience	researchers
dc.audience	generalPublic

Este ítem pertenece a la siguiente institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Métodos basados en patrones léxicos para la extracción de información

Este ítem pertenece a la siguiente institución

Ítems relacionados

Compendio de innovaciones socioambientales en la frontera sur de México ﻿

Caminar el cafetal: perspectivas socioambientales del café y su gente ﻿

Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México ﻿

Compendio de innovaciones socioambientales en la frontera sur de México

Caminar el cafetal: perspectivas socioambientales del café y su gente

Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México