Análisis de correlación entre el índice de calidad del aire y el impacto en Twitter para la ciudad de Bucaramanga aplicando análisis de series temporales, extracción y procesamiento de lenguaje natural
Fecha
2021Registro en:
instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
Autor
Naranjo Reyes, Kevin Alejandro
Resumen
Se aplicó una serie de modelos que predicen el Índice de Calidad del Aire (ICA) a partir de las publicaciones realizadas por los habitantes de Bucaramanga en Twitter, para determinar la calidad del aire en la ciudad. Se seleccionó el mejor modelo a partir de diferentes métricas con base en el accuracy de la clasificación. Para ello, se recopilaron mediciones reales del ICA en varios puntos de la ciudad y se hizo la extracción de Tweets para la misma serie temporal. Al emplear distintos algoritmos de reducción de dimensionalidad junto con técnicas de clasificación, tales técnicas son FSCNCA, Forward Selection, LDA y Redes Neuronales, se desarrollaron los modelos de predicción y se seleccionó el de mayor porcentaje de clasificación. El modelo que emplea FSCNCA como técnica de reducción de dimensionalidad y LDA como clasificador fue el que obtuvo el mejor porcentaje de clasificación, con un Accuracy de 69.07% en el conjunto Validation.