bachelorThesis
Categorización de noticias utilizando Mecanismo de Autoatención Transformers para extracción de características de estilo.
Fecha
2023-03Autor
García Zambrano, David Francisco
Murillo Cepeda, Vanessa Nicole
Institución
Resumen
El auge del periodismo digital, la cantidad de noticias generadas constantemente y el continuo número de personas que acceden a estos contenidos, genera muchas veces que terceros por medio de las plataformas webs y redes sociales tengan la oportunidad de persuadir a los lectores con contenido que altere su opinión o comportamiento sobre un tema, por esto resulta necesario, mediante técnicas de procesamiento de lenguaje natural (PLN) aplicar métodos que ayuden a solventar estos problemas. En esta investigación se busca experimentar con modelos Transformers para inglés y español, haciendo uso de aprendizaje por transferencia para un ajuste fino y obtener un modelo capaz de determinar si una noticia es de tipo sátira, opinión o información. Para ello utilizamos un dataset etiquetado obtenido de SemEval 2023 que contiene noticias extraídas de fuentes como Google News y Europe Media Monitor (EMM). Utilizamos modelos Transformers preentrenados para tareas de clasificación de textos en los idiomas inglés y español para así comparar las predicciones mediante métricas de evaluación. Los resultados obtenidos dan indicios de las bondades de los modelos considerando el tipo y cantidad de muestras del dataset utilizado, contribuyendo así a futuras investigaciones relacionadas a la clasificación de textos en específico categorización de noticias. Este estudio demuestra que es posible categorizar noticias y clasificarlas como sátira, opinión e información utilizando modelos Transformers preentrenados. The rise of digital journalism, the amount of news generated constantly and the continuous number of people accessing these contents, often generates that third parties through web platforms and social networks have the opportunity to persuade readers with content that alters their opinion or behavior on a topic, so it is necessary, through natural language processing (NLP) techniques, to apply methods that help to solve these problems. In this research we seek to experiment with Transformers models for English and Spanish, making use of transfer learning for fine tuning and obtaining a model capable of determining whether a news item is satire, opinion or information. For this we use a labeled dataset obtained from SemEval 2023 containing news extracted from sources such as Google News and Europe Media Monitor (EMM). We use pre-trained Transformers models for text classification tasks in the English and Spanish languages in order to compare predictions using evaluation metrics. The results obtained give indications of the goodness of the models considering the type and amount of dataset samples used, thus contributing to future research related to text classification in specific news categorization. This study demonstrates that it is possible to categorize news and classify them as satire, opinion and information using pre-trained Transformers models.