bachelorThesis
Masked language modeling y fine tuning con los modelos Bert y XLM-RoBERTa en la evaluación de la predicción de las palabras complejas en el idioma inglés.
Fecha
2023-03Autor
Espinoza Quezada, Marcos Ernesto
Nuñez Orrala, Vanessa Alexandra
Institución
Resumen
Este proyecto pretende la realizacion de la evaluación de los modelos basados en Transformers: BERT, XLM-RoBERTa ejecutado con las técnica Masked language modeling y Fine tuning aplicados al idioma inglés, con el objetivo de evaluar el nivel de predicción de las palabras complejas en el idioma inglés aplicando redes neuronales profundas. Estos modelos pre- entrenados se ejecutaron con el corpus CompLex proporcionado por la competencia The 15th International Workshop on Semantic Evaluation- SemEval-2021 que a su vez también procederán ser entrenados y evaluados por los diferentes algoritmos para obtener la predicción de la complejidad Léxica. Una vez obtenidos los resultados de las diferentes ejecuciones de los modelos pre-entrenados y ajustados de los modelos Transformers se evaluará su desempeño para determinar los mejores resultados de la predicción de la complejidad léxica del idioma inglés. Se ha realizado una contribución adicional en esta investigación añadiendo otros modelos como son RoBERTa BASE, RoBERTa LARGE y XLM-RoBERTa LARGE para observar el comportamiento de estos modelos en la búsqueda de la precisión del nivel de complejidad de las palabras en inglés. This project aims to carry out the evaluation of models based on Transformers: BERT, XLM-RoBERTa executed with the Masked language modeling and Fine-tuning techniques applied to the English language, with the aim of evaluating the level of prediction of complex words in the English language applying deep neural networks. These pre-trained models were executed with the CompLex corpus provided by the 15th International Workshop on Semantic Evaluation-SemEval-2021 competition, which in turn will also proceed to be trained and evaluated by the different algorithms to obtain the prediction of Lexical complexity. Once the results of the different executions of the pre-trained and adjusted models of the Transformers models have been obtained, their performance will be evaluated to determine the best results for the prediction of the lexical complexity of the English language. An additional contribution has been made in this research by adding other models such as RoBERTa BASE, RoBERTa LARGE and XLM-RoBERTa LARGE to observe the behavior of these models in the search for the accuracy of the complexity level of English words.