Algoritmos eficientes para detección temprana de errores y clasificación idiomática para uso en procesamiento de lenguaje natural y texto

Hohendahl, Andres T.; Zelasco, José F.

Objeto de conferencia

Registro en:

http://sedici.unlp.edu.ar/handle/10915/20745

isbn:950-9474-35-5

Autor

Hohendahl, Andres T.

Zelasco, José F.

Institución

Universidad Nacional de La Plata (Argentina)

Resumen

La temprana clasificación de idiomas y detección de errores gramaticales, juegan un rol fundamental tanto en el procesamiento de texto en lenguaje natural (Natural Language Processing - NLP) como en procesadores de texto convencionales. Para procesar una palabra gramaticalmente se requiere primero clasificarla, lo cual implica búsquedas en varios diccionarios para el caso de texto multilingual. Esto implica el uso de recursos importantes, en especial cuando las palabras no se encuentran, por tener errores de algún tipo. Se ha sintetizado un conjunto de algoritmos sencillos, que utilizan las propiedades de las distribuciones de pares de letras de cada idioma. Logramos simultáneamente tanto la clasificación estadística como la detección temprana de errores gramaticales, ahorrando recursos en etapas posteriores. Estos mecanismos proveen un rechazo estadístico de errores y poseen la ventaja de requerir escasos recursos de procesamiento, datos y memoria. El sistema es apto para ser aplicado en las etapas iniciales de procesamiento de texto, mitigando la pesada tarea de búsquedas innecesarias y clasificaciones estériles, en etapas posteriores.

Eje: Agentes y Sistemas Inteligentes

Red de Universidades con Carreras en Informática (RedUNCI)

Materias

Ciencias Informáticas

Mostrar el registro completo del ítem