Trabajo de grado - Maestría
An Exploratory Analysis of Digital Information using Natural Language Processing for the Planning and Decision Making Process of Water Resources in Bolivia
Date
2021Author
González Ayala, Camilo Andrés
Abstract
In recent years, the community is much more participatory in the planning and decision-making processes of Integrated Water Resources Management. However, differences between competing stakeholders prevent the identification of important variables in decision-making. In addition, the COVID-19 situation has prevented activities from being face to face with the community where fundamental information is collected for the planning process. Faced with this panorama, and with the aim of complementing the characterization of a water system, and provide an alternative that collaborates in the planning and decision-making process, this research focuses on analyzing digital information sources from the public media, obtaining useful information from articles associated with a basin. The case study corresponds to La Paz - Choqueyapu river basin in Bolivia. The information from 6 representative newspapers of that country, related to water resources, was extracted. An exploratory analysis of the information is executed and it is associated with historical information on hydrological phenomena such as precipitation in the last decade, finding a good correlation between both sources of information. Through the application of Named Entity Recognition, it was possible to identify different entities associated with bodies of water, dams, authorities and communities that are present in the basin.
Each of the articles is associated with a positive or negative sentiment according to its content in order to carry out a qualitative analysis of the basin. From the article and its associated sentiment, sentiment text classification models are build in the context of water resources with the extracted articles with different techniques of word embedding and classification machine learning algorithms. It was found that the model with the best performance corresponds to the SVM algorithm with linear kernel and Word2vec continuous bag of words word embedding, obtaining 84% accuracy. This result was compared with the value obtained through the Spanish Sentiment Analysis library of 63%, evidencing a high improvement in the classification of texts associated with water resources in the Spanish language. Finally, by finding the most frequent words in a positive or negative context, important variables can be evidenced for the improvement of the planning and decision-making process. En los últimos años, la comunidad es mucho más participativa en los procesos de planificación y toma de decisiones de la Gestión Integral de los Recursos Hídricos. Sin embargo, las diferencias entre
actores que compiten entre sí impiden la identificación de variables importantes en la toma de decisiones. En
Además, la situación de COVID-19 ha impedido que las actividades sean presenciales con la
comunidad donde se recoge información fundamental para el proceso de planificación. Ante
este panorama, y con el objetivo de complementar la caracterización de un sistema hídrico, y
proporcionar una alternativa que colabore en el proceso de planificación y toma de decisiones, esta
investigación se centra en el análisis de las fuentes de información digital de los medios de comunicación públicos, obteniendo
información útil de los artículos asociados a una cuenca. El caso de estudio corresponde a La Paz
- Cuenca del río Choqueyapu en Bolivia. La información de 6 periódicos representativos de ese
país, relacionada con los recursos hídricos, fue extraída. Se realiza un análisis exploratorio de la información
se ejecuta y se asocia con la información histórica de los fenómenos hidrológicos como
precipitación en la última década, encontrando una buena correlación entre ambas fuentes de información.
Mediante la aplicación del Reconocimiento de Entidades Nombradas, se logró identificar diferentes
entidades asociadas a cuerpos de agua, presas, autoridades y comunidades que están presentes en
la cuenca.
A cada uno de los artículos se le asocia un sentimiento positivo o negativo según su
contenido para realizar un análisis cualitativo de la cuenca. A partir del artículo y su
de los artículos y su sentimiento asociado, se construyen modelos de clasificación de textos de sentimiento en el contexto de los recursos hídricos con los artículos extraídos con diferentes
de los recursos hídricos con los artículos extraídos con diferentes técnicas de incrustación de palabras y
algoritmos de aprendizaje automático de clasificación. Se encontró que el modelo con mejor
rendimiento corresponde al algoritmo SVM con kernel lineal y Word2vec continuous
bag of words word embedding, obteniendo un 84% de precisión. Este resultado se comparó con el
con el valor obtenido por la librería de Análisis de Sentimientos en Español del 63%, evidenciando una alta
mejora en la clasificación de textos asociados a los recursos hídricos en el idioma español.
español. Finalmente, al encontrar las palabras más frecuentes en un contexto positivo o negativo
se pueden evidenciar variables importantes para la mejora del proceso de planificación y
proceso de planificación y toma de decisiones.