Tesis
Método para la predicción temporal de avenidas torrenciales a partir de datos abiertos usando aprendizaje de máquinas
Fecha
2022Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Palacio Jiménez, David
Institución
Resumen
Las avenidas torrenciales son fenómenos destructivos característicos de regiones montañosas. En el departamento de Antioquia (Colombia), estos eventos ocurren con frecuencia y las pérdidas en términos económicos y de vidas humanas reflejan la importancia de predecirlos. Las condiciones climáticas extremas, la expansión urbana y el crecimiento poblacional tienden a incrementar el riesgo en aquellas zonas donde ya se han presentado eventos en el pasado. Actualmente, se carece de una base de datos que recopile el detalle de las avenidas torrenciales que han ocurrido en Antioquia con sus respectivas variables hidrometeorológicas, además, la mayoría de las investigaciones están orientadas a identificar la susceptibilidad espacial de estos fenómenos. Con el auge de las técnicas de aprendizaje de máquinas, se propone un método de clasificación binaria para la predicción temporal de avenidas torrenciales a partir de datos abiertos. De esta manera, se identifican las múltiples fuentes de información para construir un inventario de eventos con sus respectivas variables hidrometeorológicas. Luego se realiza el preprocesamiento y entendimiento profundo de los datos, de manera que se seleccionan las variables que más influencia tienen en la ocurrencia de las avenidas torrenciales mediante métodos de envoltura y de filtrado. Seguidamente, se aborda el problema del desbalanceo entre las clases, usando diferentes proporciones de los datos y generando datos sintéticos para evaluar el desempeño del clasificador propuesto. Por último, se obtiene que el algoritmo de bosques aleatorios con el conjunto de datos balanceado y desbalanceado en una proporción de 1:99 entre las clases de ocurrencia y no ocurrencia de avenida torrencial fue el que mejor desempeño obtuvo, logrando un F1-score y sensibilidad del 85% para el conjunto balanceado, mientras que el conjunto de datos desbalanceado obtuvo 66% y 55% respectivamente. Además, se determina que las variables que mayor influencia tienen en el modelo de clasificación corresponden a la lluvia antecedente de 1 día, la escorrentía, la evapotranspiración potencial y el índice de vegetación baja. (Texto tomado de la fuente) Debris flows are destructive phenomena characteristic of mountainous regions. In the Department of Antioquia (Colombia), these events occur frequently and the losses in economic terms and in human lives reflect the importance of predicting them. Extreme weather conditions, urbanization, and population growth tend to increase the risk in those areas where events have already occurred in the past. Currently, there is a lack of a database that compiles the details of the debris flows that have occurred in Antioquia with their respective hydrometeorological variables, in addition, most of the investigations are aimed at identifying the spatial susceptibility of these phenomena. With the rise of machine learning techniques, a binary classification method is proposed for the temporal prediction of debris flows from open data. In this way, multiple sources of information are identified to build an inventory of events with their respective hydrometeorological variables. Then, the preprocessing and deep understanding of the data is carried out, so that the variables that have the most influence on the occurrence of debris flows are selected through wrapping and filtering methods. Next, the problem of imbalance between classes is addressed, using different proportions of the data and generating synthetic data to evaluate the performance of the proposed classifier. Finally, it is obtained that the random forest algorithm with the balanced and unbalanced data set in a ratio of 1:99 between the classes of occurrence and non-occurrence of debris flows was the one that obtained the best performance, achieving an F1-score and sensitivity of 85% for the balanced set, while the unbalanced data set obtained 66% and 55% respectively. In addition, it is determined that the variables that have the greatest influence on the classification model correspond to the antecedent rainfall of 1 day, runoff, potential evapotranspiration, and the low vegetation index.