Trabajo de grado - Maestría
Modelo para la predicción de la deserción de estudiantes de pregrado, basado en técnicas de minería de datos
Registration in:
Corporación Universidad de la Costa
REDICUC - Repositorio CUC
Author
Camargo García, Aníbal José
Institutions
Abstract
The main objective of this research project is to create a model for the prediction of undergraduate student desertion at the Universidad de la Costa - CUC, based on the analysis of different socioeconomic and academic factors. The study required the execution of a series of phases: characterization, experimentation, development and evaluation. During the characterization phase, a dataset was constructed, based on the compilation of demographic, cultural, social, family, educational, socioeconomic status and psychological profile data of each student, for the periods between 2013-1 and 2018-2. Such information was collected from the registration forms that students fill out when they enter the institution, a total of 1,606 unique student records were collected. During the experimental phase, different machine learning techniques were evaluated for the categories: Bayesian networks, support vector machines, and decision trees. The algorithm with which the best hit rate was obtained was Random forest (from the decision tree category), with an accuracy of 84.8%. In the development phase, the model was integrated into an application that allows us to predict whether a student or a group of students will drop out or not. Finally, in the evaluation phase, the application was subjected to different types of tests to evaluate both the functionality of the graphic interface with the final user and the success rate in terms of desertion prediction, the results have coincided with the precision obtained in the experimental phase. El objetivo principal de este proyecto de investigación es crear un modelo para la predicción de la deserción de estudiantes de pregrado en la Universidad de la Costa - CUC, a partir del análisis de diferentes factores socioeconómicos y académicos. El estudio requirió de la ejecución de una serie de fases: caracterización, experimentación, desarrollo y evaluación. Durante la fase de caracterización se construyó un conjunto de datos (dataset), a partir de la compilación de los datos demográficos, culturales, sociales, familiares, educativos, estatus socioeconómico y perfil psicológico de cada estudiante, de los periodos comprendidos entre 2013-1 y 2018-2. Tal información fue recopilada a partir de los formatos de inscripción que diligencian los estudiantes cuando ingresan a la institución, un total de 1.606 registros únicos de estudiantes fueron recopilados. Durante la fase de experimentación se evaluaron distintas técnicas de aprendizaje automático (Machine Learning) de las categorías: redes bayesianas, máquinas de soporte vectorial y árboles de decisiones. El algoritmo con el cual se obtuvo la mejor tasa de aciertos fue Random forest (de la categoría árboles de decisión), con una exactitud del 84.8%. En la fase de desarrollo se integró el modelo a una aplicación que permite predecir si un estudiante o un grupo de ellos desertará o no. Por último, en la fase de evaluación se sometió la aplicación a diferentes tipos de pruebas para valorar tanto la funcionalidad de la interface gráfica con el usuario final como la tasa de aciertos en cuanto a la predicción de la deserción, los resultados han coincidido con la precisión obtenida en la fase experimental.