Thesis
Resolución automática de la homonimia morfológica para el español
Autor
Gómez Balderas, José Ernesto
Institución
Resumen
Presentamos un modelo y un método para resolver el problema de etiquetación de categorías gramaticales usando solamente información gramatical. El problema consiste en la asignación de manera correcta, de la etiqueta de una categoría gramatical a cada palabra. El problema no es simple debido a la gran extensión de la homonimia morfológica, por ejemplo la palabra trabajopuede ser verbo o sustantivo, etc. La resolución de todos los tipos de homonimia se realiza por un lector humano de acuerdo al contexto de las palabras.
Tratamos de encontrar una forma para la resolución automática de la homonimia morfológica, usando la metodología de las redes neuronales y el algoritmo de retropropagación. Experimentamos con datos en español.
El sistema de etiquetación implementado utiliza información del contexto correspondiente a la categoría gramatical. Esta información es representada en forma de etiqueta. Las aplicaciones potenciales de este sistema existen en muchas áreas incluyendo reconocimiento del habla, síntesis del habla, traducción, desambiguación y recuperación de información.
Usamos el conocimiento explicito de las etiquetas de los contextos antecedentes y subsecuentes para representar las entradas de las redes neuronales. En el experimento, usamos distintas redes neuronales con el propósito de asignar etiquetas de clases gramaticales a palabras desconocidas o escoger la etiqueta correcta de un conjunto de etiquetas asignadas por un analizador morfológico. Las redes neuronales usan un número diferente de etiquetas de contextos hacia la izquierda y hacia la derecha (hasta 3). La decisión final es tomada en base a la “votación” de las redes. De la misma manera, llevamos a cabo más experimentos usando estas redes con pesos adicionales.
Los resultados de este trabajo están divididos en dos partes. En la primera parte, analizamos los resultados de la ejecución de la etiquetación de categorías gramaticales, es decir asignamos etiquetas en base al contexto. En la segunda parte, analizamos los resultados obtenidos de la resolución automática de la homonimia morfológica, es decir escogimos la etiqueta correcta de un conjunto de posibles etiquetas. El método propuesto tiene un alto nivel de precisión cuando existe información completa en los contextos anteriores y posteriores de hasta 46% para la primera tarea y hasta 76% para la segunda tarea.
La principal contribución de este trabajo comparado con otras propuestas es el uso de etiquetas de contextos solamente, ignorando la información léxica. Esto nos permite reducir significativamente el espacio de decisión.