Thesis
Resolución automática de la homonimia morfológica para el español
Fecha
2013-02-16Registro en:
Gómez Balderas, José Ernesto. (2007). Resolución automática de la homonimia morfológica para el español. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Gómez Balderas, José Ernesto
Institución
Resumen
RESUMEN: Presentamos un modelo y un método para resolver el problema de etiquetación de
categorías gramaticales usando solamente información gramatical. El problema consiste en
la asignación de manera correcta, de la etiqueta de una categoría gramatical a cada palabra.
El problema no es simple debido a la gran extensión de la homonimia morfológica, por
ejemplo la palabra trabajo puede ser verbo o sustantivo, etc. La resolución de todos los
tipos de homonimia se realiza por un lector humano de acuerdo al contexto de las palabras.
Tratamos de encontrar una forma para la resolución automática de la homonimia
morfológica, usando la metodología de las redes neuronales y el algoritmo de
retropropagación. Experimentamos con datos en español.
El sistema de etiquetación implementado utiliza información del contexto
correspondiente a la categoría gramatical. Esta información es representada en forma de
etiqueta. Las aplicaciones potenciales de este sistema existen en muchas áreas incluyendo
reconocimiento del habla, síntesis del habla, traducción, desambiguación y recuperación de
información.
Usamos el conocimiento explicito de las etiquetas de los contextos antecedentes y
subsecuentes para representar las entradas de las redes neuronales. En el experimento,
usamos distintas redes neuronales con el propósito de asignar etiquetas de clases
gramaticales a palabras desconocidas o escoger la etiqueta correcta de un conjunto de
etiquetas asignadas por un analizador morfológico. Las redes neuronales usan un número
diferente de etiquetas de contextos hacia la izquierda y hacia la derecha (hasta 3). La
decisión final es tomada en base a la “votación” de las redes. De la misma manera,
llevamos a cabo más experimentos usando estas redes con pesos adicionales.
Los resultados de este trabajo están divididos en dos partes. En la primera parte,
analizamos los resultados de la ejecución de la etiquetación de categorías gramaticales, es
decir asignamos etiquetas en base al contexto. En la segunda parte, analizamos los
resultados obtenidos de la resolución automática de la homonimia morfológica, es decir
escogimos la etiqueta correcta de un conjunto de posibles etiquetas. El método propuesto
tiene un alto nivel de precisión cuando existe información completa en los contextos
anteriores y posteriores de hasta 46% para la primera tarea y hasta 76% para la segunda
tarea.
La principal contribución de este trabajo comparado con otras propuestas es el uso
de etiquetas de contextos solamente, ignorando la información léxica. Esto nos permite
reducir significativamente el espacio de decisión. ABSTRACT: We present a model and a method for solving the problem of part of speech tagging
using the grammatical information only. The problem consists in assigning the correct tag
of a grammatical category to each word. The problem is not simple due to the widely
spread morphological homonymy, for example, work can be verb or noun, etc. The
resolution of all kinds of homonymy is carried out by a human reader according to words
from the context.
We try to find a way for automatic resolution of morphologic homonymy using
neural networks methodology with back propagation algorithm. We experimented on
Spanish data.
We implemented tagging system that uses the corresponding information of parts of
speech of the context. This information is represented in form of tags. Potential
applications of this system exist in many areas, including speech recognition, speech
synthesis, translation, disambiguation and information retrieval.
We used the explicit knowledge of antecedent and subsequent contexts tags for
representing input of neural networks. In the experiment, we used various neural networks,
with the purpose of assigning grammatical class tags to unknown words or to choose the
correct tag from a set of tags assigned by a morphological analyzer. The neural networks
use different number of context tags to the left and to the right (till 3). The final decision is
taken on the basis of “voting” of the networks. In the same manner, we conducted more
experiments using these networks with additional weights.
The results of this work are divided in two parts. In the first part, we analyze the
results of performance of a part of speech tagging, i.e., we assign the tags on the basis of
the context. In the second part, we analyze results in automatic morphologic homonymy
resolution, i.e., we choose the correct tag of the set of possible tags. Proposed method has
high precision, when there is complete information available of the previous and
subsequent contexts, namely, till 46% for the first task, and till 76% for the second task.
The main contribution of this work as compared to other approaches is the usage of
the context tags only, thus, ignoring lexical information. It allows for reducing significantly
the decision space.