Análisis sintáctico de dependencias mediante inducción de gramáticas
Fecha
2019-03-08Registro en:
Juárez Gambino, Joel Omar. (2008). Análisis sintáctico de dependencias mediante inducción de gramáticas (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Juárez Gambino, Joel Omar
Institución
Resumen
RESUMEN:
Existen dos enfoques para la creación de analizadores sintácticos de dependencias, el enfoque supervisado y el no supervisado; en el primer enfoque, se busca lograr el mejor desempeño posible para un solo lenguaje. Para ello se colecta una gran cantidad de recursos (corpora anotados manualmente con etiquetas morfológicas, sintácticas y estructurales) que requiere años y una gran cantidad de esfuerzo para obtenerlos. En dicho enfoque se logran analizadores que logran alrededor del 85% de precisión en la anotación sintáctica en diversos idiomas. Por otra parte, en el enfoque no supervisado se trata de descubrir la estructura del texto usando solamente el texto plano (raw). En esta tesis exploramos el segundo enfoque, el cual permite, una vez creado el modelo de análisis, crear analizadores de dependencias para virtualmente cualquier lenguaje. En este trabajo hemos creado el modelo de un analizador multilingüe de dependencias no supervisado, el cual hemos denominado DILUCT-G1 (GI de Grammar Infrrence, Inferencia Gramatical'), el cual al ser entrenado con un corpus en español produce el primer analizador de dependencias no supervisado para el español en la comunidad (le la lingüística computacional, y además hemos aplicado nuestro modelo para crear un analizador sintáctico de dependencias para el inglés. A pesar de tener margen para mejoras,
principalmente debido a limitaciones teóricas de los inductores gramaticales usados como parte del modelo propuesto, nuestro modelo permite disminuir el efecto de las mismas. Los mecanismos principales para lograr esto son: añadir información morfológica antes de realizar la inducción, y un novedoso sistema de conversión de análisis superficial a análisis de dependencias que reconstruye relaciones no descubiertas por los inductores gramaticales mediante un sistema de precedencia de categorías léxicas que simplifica esta tarea realizada anteriormente con complicados sistemas de reglas. De esta forma, a pesar de las limitaciones teóricas de las gramáticas libres de contexto, y del límite de aprendizaje determinado por GoId (1967), el desempeño es comparable con analizadores de dependencias comerciales semisupervisados, obteniendo un desempeño de únicamente lO puntos porcentuales por debajo del
estado del arte de dichos analizadores para el español y el inglés, y, comprobando con éxito que puede crearse un analizador sintáctico de dependencias multilingüe, que para lenguas como el occitano (así como otras lenguas neolatinas), por ejemplo, para el cual no existe ningún analizador de dependencias, establece el estado del arte.
ABSTRACT:
There are mainly two approaches for creating syntactic dependencies analyzers: supervised and unsupervised. The main goal of the first approach is to attain the best possible performance for a single language. For this purpose, a great collection of resources is collected (manually annotated corpora with part of speech annotation, and syntactic and structure tags) which requires a great effort and years to be collected. For this approach the state of the art is
around of 85% of syntactic annotation of full sentences in several languages, getting over 90% for English. On the other hand, the unsupervised approach tries to discover the structure of the text using only raw text. In this thesis we explore this second approach. This allows lo create a dependency analyzer for virtually any language. In this work we created the model of an unsupervised multilingual dependency analyzer, named DILUCT-G1 (GI from Grammar Inference). This analyzer has been trained with a Spanish corpus, producing the first unsupervised dependency analyzer for Spanish in the community of Computational Linguistics. In addition, we have applied our model for English, creating a syntactic
dependency analyzer for English. Despite of having still room for improvement, mainly due to theoretical limitations of the grammar inductors used as part of the proposed model, our model allows to minimize the effect of these limitations. The foremost machinery which allows this is: adding morphological information before the grammar induction process, and a novel system for converting shallow parsing to dependency parsing which reconstructs undiscovered
relationships by the grammar inductors by means of a lexical categories precedence system, which simplifies this task that was done previously with complex rule systems. By this way, in spite of the theoretical limitations of the context free grammars, and the learning limit determined by Gold in 1967, the performance of our parser is comparable to that of commercial semi-supervised dependency analyzers, 10 percent below of the performance of such semi-supervised analyzers for Spanish and English (being ours unsupervised), and in the state of the art for English unsupervised analysis. We confirmed successfully that it is possible to create a multilingual syntactic dependency analyzer that for languages such as Occitan (as well as for other neolatin languages), for example, where there is no dependency analyzer, establishes (he state of the art.