Article
Análisis de sentimiento de los datos de twitter de COVID-19 utilizando modelos de aprendizaje profundo y aprendizaje máquina
Fecha
2023-01Autor
Darad, Simran
Krishnan, Sridhar
Institución
Resumen
En este artículo, aplicamos técnicas de aprendizaje automático
para predecir el sentimiento de las personas
que usan las redes sociales como Twitter durante el
pico de COVID-19 en abril de 2021. Los datos contienen
tweets recopilados en las fechas entre el 16
de abril de 2021 y el 26 de abril de 2021, donde el
texto de los tweets se ha etiquetado mediante la formación
de los modelos con un conjunto de datos ya
etiquetado de tweets de virus de corona como positivo,
negativo y neutro. El análisis del sentimiento se llevó
a cabo mediante un modelo de aprendizaje profundo
conocido como Representaciones de Codificadores
Bidireccionales de Transformers (BERT) y varios modelos
de aprendizaje automático para el análisis de
texto y el rendimiento, que luego se compararon entre
sí. Los modelos ML utilizados son Bayes ingenuas,
regresión logística, bosque aleatorio, máquinas vectoriales
de soporte, descenso de gradiente estocástico y
aumento de gradiente extremo. La precisión de cada
sentimiento se calculó por separado. La precisión de
clasificación de todos los modelos de ML producidos
fue de 66.4 %, 77.7 %, 74.5 %, 74.7 %, 78.6 % y 75.5
%, respectivamente y el modelo BERT produjo 84.2
%. Cada modelo clasificado de sentimiento tiene una
precisión de alrededor o superior al 75 %, que es un
valor bastante significativo en los algoritmos de minería
de texto. Vemos que la mayoría de las personas
que tuitean están adoptando un enfoque positivo y
neutral./The novel coronavirus disease (COVID-19) is an ongoing
pandemic with large global attention. However,
spreading fake news on social media sites like Twitter
is creating unnecessary anxiety and panic among
people towards this disease. In this paper, we applied
machine learning (ML) techniques to predict
the sentiment of the people using social media such
as Twitter during the COVID-19 peak in April 2021.
The data contains tweets collected on the dates between
16 April 2021 and 26 April 2021 where the
text of the tweets has been labelled by training the
models with an already labelled dataset of corona
virus tweets as positive, negative, and neutral. Sentiment
analysis was conducted by a deep learning
model known as Bidirectional Encoder Representations
from Transformers (BERT) and various ML
models for text analysis and performance which were
then compared among each other. ML models used
were Naïve Bayes, Logistic Regression, Random Forest,
Support Vector Machines, Stochastic Gradient
Descent and Extreme Gradient Boosting. Accuracy
for every sentiment was separately calculated. The
classification accuracies of all the ML models produced
were 66.4%, 77.7%, 74.5%, 74.7%, 78.6%, and
75.5%, respectively and BERT model produced 84.2%.
Each sentiment-classified model has accuracy around
or above 75%, which is a quite significant value in text
mining algorithms. We could infer that most people
tweeting are taking positive and neutral approaches.