Tesis
Alineación automática de textos paralelos a nivel de palabras usando información lingüística diversa
Fecha
2017-04-25Registro en:
Cendejas Castro, Eduardo Antonio. Alineación automática de textos paralelos a nivel de palabras usando información lingüística diversa. Tesis (Doctorado en Ciencias de la Computación). Ciudad de México, Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación. Centro de Investigación en Computación. 2013. 110 p.
Autor
Cendejas Castro, Eduardo Antonio
Institución
Resumen
La alineación de texto es una importante área de investigación en el campo de la lingüística computacional, especialmente para las tareas relacionadas con la traducción automática. También constituye un apoyo en otras áreas relacionadas, tales como la traducción asistida, lexicografía asistida, lingüística contrastiva y terminología.
El objetivo de los algoritmos de alineación consiste en establecer una correspondencia entre las unidades estructurales de textos paralelos: textos que están escritos en diferentes idiomas, pero son traducciones entre sí. Estas correspondencias se pueden establecer en varios niveles: textos, párrafos, oraciones y palabras.
Existen diversos enfoques y recursos que pueden ser empleados para obtener la alineación. Las dos aproximaciones principales siguen un enfoque lingüístico o un enfoque estadístico. A partir de éstas se han desarrollado varias técnicas, cada una de ellas con sus propias ventajas y desventajas.
Durante la alineación de textos paralelos a nivel de palabras surgen varios problemas originados por la desigualdad de las reglas gramaticales y la diversa cobertura de unidades léxicas en cada idioma. Es por ello, que a menudo los algoritmos de alineación se crean orientados a pares de lenguajes específicos, por ejemplo: español - inglés, inglés - francés, inglés - rumano, etc. Además, los algoritmos deben considerar los recursos disponibles para llevar a cabo la tarea de alineación y su complejidad computacional.
Esta tesis presenta una metodología que es programada mediante un algoritmo que utiliza tanto técnicas estadísticas, como lingüísticas, es flexible y se puede configurar fácilmente. El algoritmo se basa en recursos lingüísticos, tales como: información morfológica, equivalencias léxicas de traducción, cognados y dominios semánticos. El algoritmo propuesto muestra mejores resultados en la alineación que los métodos del estado del arte.