Tesis
Método para la detección de estudiantes en riesgo de deserción, basado en un diseño de métricas y una técnica de minería de datos
Fecha
2021-10-22Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Zapata Medina, Daniel
Institución
Resumen
La deserción escolar es una problemática social de alto impacto para el sistema educativo, dificultando la movilidad social y la construcción de la equidad en un país. En la última década, con el auge de los datos estudiantiles, las investigaciones de este fenómeno en la educación ha sido abordado desde la minería de datos educativos y una de las principales problemáticas es su detección temprana, sobre todo en países emergentes y subdesarrollados donde el abandono escolar es cada vez más frecuente. Las instituciones educativas requieren detectar oportunamente el riesgo de deserción de estudiantes y así apoyar al estudiantado en su permanencia dentro del sistema educativo. Lo anterior, propició una revisión sistemática de literatura en el área computacional, demostrando que en los últimos cinco años se han desarrollado varios métodos para la detección temprana del riesgo de deserción escolar, y a su vez ha generado nuevos desafíos en la identificación de los factores mayormente influyentes, el planteamiento de nuevos métodos eficientes e interpretables que puedan ser implementados y la necesidad de representación y selección adecuada de características. Además, con este tipo de datos, es necesario una profunda tarea de preprocesamiento debido a la heterogeneidad de las variables. Sin embargo, no se trata sólo de encontrar las causas de la deserción, sino también reunir otras características que permitan generar estrategias para persuadir al estudiantado en su interés y decisión de permanecer en el sistema educativo. El propósito de esta tesis fue desarrollar un método basado en métricas para transformar las características iniciales, aportando al preprocesamiento y entendimiento profundo de los datos (análisis estadístico), de esta forma, apoyar una selección y representación óptima y adecuada de características, para luego llevarlas como entradas de clasificadores expertos en un tipo específico de características. Seguidamente, se utilizó la fusión a nivel de clasificador para obtener una respuesta más generalizada, ya que distintos clasificadores se equivocarán en muestras diferentes. Con esto, mejorar el rendimiento del clasificador y fácil interpretación de los resultados de los algoritmos de aprendizaje automático. La validación en términos de precisión, sensibilidad e interpretabilidad del método propuesto en la presente tesis se realizó en comparación con una técnica de minería de datos y las características iniciales, lo que permitió comprobar la capacidad de detección de la deserción escolar utilizando la transformación de características a partir de métricas, logrando un 82% de precisión y 64% de recall, estos resultados demuestran el aumento significativo con respecto al 71% de precisión y 57% de recall alcanzado con las características iniciales sin el uso de métricas. Por lo anterior, se recomienda su potencial aplicación en la analítica de datos educativos, que permita la predicción temprana del riesgo de deserción y la generación de estrategias que posibiliten persuadir al estudiantado de permanecer en la institución educativa. (Texto tomado de la fuente) School dropout is a social problem with a high impact on the education system, hindering social mobility and the construction of equity in a country. In the last decade, with the rise of student data, research on this phenomenon in education has been approached from educational data mining and one of the main problems is its early detection, especially in emerging and underdeveloped countries where school dropout is increasingly frequent. Educational institutions need to detect students at risk of dropping out of school in a timely and thus support students in their permanence within the educational system. This led to a systematic literature review in the computational area, showing that in the last five years several methods have been developed for the early detection of dropout risk, and in turn has generated new challenges in the identification of the most influential factors, the approach of new efficient and interpretable methods that can be implemented and the need for adequate representation and selection of fatures. In addition, with this type of data, a deep preprocessing task is necessary due to the heterogeneity of the variables. However, it is not only a matter of finding the causes of dropout, but also of gathering other features that allow us to generate strategies to persuade students in their interest and decision to remain in the educational system. The purpose of this thesis was to develop a metric-based method for transform the initial features, contributing to the preprocessing and deep understanding of the data (statistical analysis), thus supporting an optimal and adequate selection and representation of features, and then taking them as inputs to expert classifiers on a specific type of features. Next, classifier-level fusion was used to obtain a more generalized answer, since different classifiers will be wrong on different samples. With this, improving the classifier performance and easy interpretation of the results of the machine learning algorithms. The validation in terms of accuracy, sensitivity and interpretability of the method proposed in this thesis was performed in comparison with a data mining technique and the initial features, which allowed testing the ability to detect school dropout using the reworking of features from metrics, achieving 82% precision and 64% recall, these results demonstrate the significant increase with respect to 71% precision and 57% recall achieved with the initial features without the use of metrics. Therefore, its potential application in educational data analytics is recommended to allow early prediction of the risk of dropout and the generation of strategies that make it possible to persuade students to remain in the educational institution.