dc.contributor | LUIS VILLASEÑOR PINEDA | |
dc.contributor | MANUEL MONTES Y GOMEZ | |
dc.creator | CLAUDIA PATRICIA ORTA PALACIOS | |
dc.date | 2008 | |
dc.date.accessioned | 2023-07-25T16:21:49Z | |
dc.date.available | 2023-07-25T16:21:49Z | |
dc.identifier | http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/545 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805763 | |
dc.description | Current information technologies have made possible the storage and access
to large digital document collections, but they still do not facilitate the analysis
of such amounts of information. In order to satisfy this requirement several
text processing tasks have recently emerged. In particular, information
extraction aims to automatically populate databases by identifying and
collecting information pieces from free text documents.
The research works on information extraction are mainly based on the
discovery and application of extraction patterns. These works can be
classified in two main kinds: supervised and not supervised approaches. The
formers make use of labeled texts at the training phase, whereas the later
ones avoid the use of such kind of documents but require the manually
selection and tagging of the discovered extraction patterns. In both cases it is
common to employ syntactic patterns, which make current approaches highly
language dependent.
This work proposes two different not supervised methods for information
extraction. The main difference of these proposals compared with previous
approaches is that they are exclusively based on lexical information, and
therefore they are easily to adapt to different languages. In addition, the
proposed methods incorporate some mechanisms that facilitate the manual
selection and tagging of extraction patterns, making them more easily to
move to different domains. The experimental results show that the success of
these methods depends on the number of used lexical patterns. | |
dc.description | Las tecnologías de información actuales han hecho posible el
almacenamiento y acceso a grandes colecciones de documentos digitales,
pero estas tecnologías aún no han facilitado el análisis de tales cantidades
de información. Para satisfacer este requerimiento han surgido
recientemente varias tareas de procesamiento de texto. En particular, la
extracción de información tiene como fin poblar automáticamente bases de
datos mediante la identificación y recolección de piezas de información de
documentos de textos libres.
Los trabajos de investigación sobre extracción de información se basan
principalmente en el descubrimiento y aplicación de patrones de extracción.
Estos trabajos pueden ser clasificados en dos clases principales: métodos
supervisados y no-supervisados. El primero hace uso de textos etiquetados
en la fase de entrenamiento, mientras que el último evita el uso de tales
clases de documentos pero requiere la selección manual y el etiquetamiento
de los patrones de extracción descubiertos. En ambos casos es común
emplear patrones sintácticos, los cuales crean métodos actuales altamente
dependientes del lenguaje.
Este trabajo propone dos diferentes métodos supervisados para la extracción
de información. La principal diferencia de dichas propuestas en comparación
con métodos previos es que éstas se basan exclusivamente en información
léxica y por lo tanto, son fácilmente adaptables a diferentes lenguajes.
Además, los métodos propuestos incorporan algunos mecanismos que
facilitan la selección y el etiquetamiento manual de los patrones de
extracción, haciéndolos muchos más fáciles de mover a diferentes dominios.
Los resultados experimentales muestran que el éxito de estos métodos
depende del número de patrones léxicos utilizados | |
dc.format | application/pdf | |
dc.language | spa | |
dc.publisher | Instituto Nacional de Astrofísica, Óptica y Electrónica | |
dc.relation | citation:Orta-Palacios CP | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | http://creativecommons.org/licenses/by-nc-nd/4.0 | |
dc.subject | info:eu-repo/classification/Agrupación de patrones/Pattern clustering | |
dc.subject | info:eu-repo/classification/La coincidencia de patrones/Pattern matching | |
dc.subject | info:eu-repo/classification/Extracción de información/Information extraction | |
dc.subject | info:eu-repo/classification/cti/7 | |
dc.subject | info:eu-repo/classification/cti/33 | |
dc.subject | info:eu-repo/classification/cti/3304 | |
dc.subject | info:eu-repo/classification/cti/120312 | |
dc.subject | info:eu-repo/classification/cti/120312 | |
dc.title | Métodos basados en patrones léxicos para la extracción de información | |
dc.type | info:eu-repo/semantics/masterThesis | |
dc.type | info:eu-repo/semantics/acceptedVersion | |
dc.audience | students | |
dc.audience | researchers | |
dc.audience | generalPublic | |