bachelorThesis
Sistema de predicción de la complejidad léxica implementando machine learning y redes neuronales para reducir barreras de la compresión lectora en los estudiantes universitarios.
Fecha
2021Autor
Arroba Salinas, Sandra Yanel
Pozo Gonzabay, Luis Fernando
Institución
Resumen
La identificación de palabras complejas (CWI) es la tarea de detectar en el
contenido de los documentos las palabras que son difíciles o complejas de entender
por las personas de un determinado grupo. El objetivo de esta investigación es el
desarrollo de un sistema de predicción de la complejidad léxica tanto del idioma
inglés como del idioma español. El sistema se basa en la implementación de
características lingüísticas a nivel de la palabra y oraciones, y en la implementación
de las técnicas de redes neuronales BERT y XLM-RoBERTa para la generación de
nuevas características que permitan resultados mucho más precisos. Se aplicó el
algoritmo Random Forest Regressor. Para el entrenamiento de algoritmo se utilizó
un conjunto de datos conformado por un corpus de textos en español y otro corpus
de textos en inglés. La evaluación del algoritmo se lo realizó mediante la partición
90% - 10%. La metodología de desarrollo que se aplicó fue Kanban, y la
metodología de investigación se basó en el Estudio de Caso por lo cual sus unidades
de análisis se fundamentaron en las características lingüísticas generadas. Tras
varias ejecuciones del algoritmo fue necesario implementar una validación cruzada
de 5 variaciones para lograr resultados más precisos. El sistema será de mucho
beneficio para la generación de soluciones dirigidas a los estudiantes con bajo nivel
de comprensión lectora. Complex Word Identification (CWI) is the task of detecting in the content of
documents words that are difficult or complex to understand by the people of a
certain group. The objective of this research is the development of a system for
predicting the lexical complexity of both the English and Spanish languages. The
system is based on the implementation of linguistic characteristics at the level of
the word and sentences, and in the implementation of BERT and XLM-RoBERTa
neural network techniques for the generation of new features that allow much more
accurate results. The Random Forest Regressor algorithm was applied. For the
algorithm training, a dataset consisting of a corpus of texts in Spanish and another
corpus of texts in English was used. The evaluation of the algorithm was performed
by partitioning 90% - 10%. The development methodology that was applied was
Kanban, and the research methodology was based on the Case Study, for which its
units of analysis were based on the linguistic characteristics generated. After several
runs of the algorithm, it was necessary to implement a cross validation of 5
variations to achieve more accurate results. The system will be of great benefit for
the generation of solutions aimed at students with a low level of reading
comprehension.