Otro
Evaluación de algoritmos de aprendizaje de máquina no supervisados sobre datos climáticos
Autor
Ramírez-Gómez, Juan Sebastián
Institución
Resumen
For the use of climate data, researchers have difficulties in determining which clustering algorithm may be the best performer for the processing and analysis of a specific dataset. There is no clear information that allows to give an approach about which clustering algorithm to use based on the quantity of records, quantity and types of variables and quality of the data set (datasets with missing data and outliers data) to get a good performance.
In this research we present the evaluation of unsupervised machine learning algorithms with K-means, K-medoids and Linkage-complete, applied to three datasets with climatological variables (temperature, rainfall, relative humidity and solar radiation), for three meteorological stations located in the department of Caldas, Colombia, at different heights above sea level (municipality of Villamaría, the city of Manizales and Los Nevados National Park), which include 430,635 records, 530,802 records and 248,297 records respectively. 5 scenarios are defined for 2, 3 and 5 clusters for each of the two partitioned algorithms and 5 scenarios for the hierarchical algorithm, for each of the meteorological stations, and adding 3 more scenarios (one for each algorithm) using parallel computing, and applying a different quantity and grouping of variables for the different scenarios and using Euclidean distance as a measure of distance, Davis-Bouldin as a method of quality evaluation of clusters, application of normalization with techniques such as range-transformation and z -transformation, definition of number of iterations of the algorithm and reduction of dimensionality with Principal Components Analysis. In addition, the computational cost of the algorithms is evaluated according to the characteristics established for the scenarios. This research provides conclusions that can guide the researcher about some decisions in clusters analysis in meteorological data, as well as identify the most important characteristics to take into consideration when constructing the best performance scenario according to the particular needs and requirements. Para el uso de datos climáticos los investigadores tienen dificultades al determinar qué algoritmo de agrupamiento puede ser el de mejor desempeño para el procesamiento y análisis de un dataset específico. No se cuenta con información clara que permita dar un acercamiento de qué algoritmo de clustering emplear basados en la cantidad de instancias, cantidad y tipos de variables y calidad del conjunto de datos (datasets con datos faltantes y datos atípicos) para obtener un buen desempeño.
En esta investigación se presenta la evaluación de algoritmos de aprendizaje de máquina no supervisados con K-means, K-medoids y Agrupamiento jerárquico, aplicados a tres datasets con variables climatológicas (temperatura, precipitación, humedad relativa y radiación solar), para tres estaciones climáticas ubicadas en el departamento de Caldas, Colombia, a diferentes alturas sobre el nivel del mar (municipio de Villamaría, la ciudad de Manizales y el Parque Nacional Natural Los Nevados), los cuales comprenden 430.635 instancias, 530.802 instancias y 248.297 instancias respectivamente. Se definen 5 escenarios de ejecución con 2, 3 y 5 clústeres para cada uno de los dos algoritmos particionados y 5 escenarios de ejecución para el algoritmo jerárquico, para cada una de las estaciones climáticas, y adicionando 3 escenarios más (uno para cada algoritmo) empleando computación paralela, y aplicando para los diversos escenarios una variedad de tratamientos con diferente cantidad y agrupación de variables y utilizando distancia euclidiana como medida de distancia; Davis-Bouldin como método de evaluación de calidad de los clústeres; aplicación de normalización con técnicas como range-transformation y z-transformation; Definición de número de iteraciones del algoritmo y reducción de dimensionalidad con Análisis de Componentes Principales. Además, se evalúa el costo computacional de los algoritmos según las características establecidas para los escenarios. Esta investigación entrega conclusiones que pueden orientar al investigador sobre algunas decisiones en análisis de clústeres en datos meteorológicos, como también para identificar las características más importantes a tener en cuenta al momento de construir el escenario de mejor desempeño según las necesidades y requerimientos particulares. (Texto tomado de la fuente)