tesis de maestría
Modelos de predicción temprana de logro académico estudiantil
Fecha
2021Registro en:
10.7764/tesisUC/ING/63169
Autor
Navarrete Carvacho, Hugo Andrés
Institución
Resumen
La predicción de rendimiento académico es uno de los objetivos estudiados en el campo de la minería de datos educativa. Los modelos predictivos pueden ser usados como una alerta temprana para poder tomar medidas preventivas en estudiantes en situación de riesgo. Otra dimensión de este problema es el estudio de las variables que impactan más en la predicción. Este estudio propone un completo esquema con uso de algoritmos de aprendizaje de máquinas, técnicas de balance de datos y métodos de interpretación agnóstica a modelos para predecir el desempeño estudiantil y entregar nuevas variables que aporten a avanzar en el conocimiento científico sobre el aprendizaje. Para lograr esto se usó la prueba SIMCE, que entrega información censal sobre más de 230.000 estudiantes. Los resultados empíricos muestran una capacidad predictiva de un 78% para el modelo propuesto. Se descubrió que el algoritmo XGBoost en conjunto con la técnica de balance de datos Tomek Links fueron superiores a otras técnicas utilizadas como SVM, Naive Bayes, Regresión Logística, KNN, Redes neuronales y Random Forest para clasificar y Adasyn, Smote, Borderline Smote, RENN, SMOTENN y SMOTETOMEK para balancear. Con el uso de la técnica SHAP se encontraron las variables más impactantes en la predicción, las cuales confirman estudios previos y ofrecen nuevas relaciones a investigar.