article
Análisis de resultados de las pruebas saber 11 implementando técnicas de minería de datos.
Saber 11 test results analysis by implementing data mining techniques.
Autor
Ávila Palacio, Luis Kener
Ospino Gutiérrez, Emanuel
Páez Reales, Arlinton José
Institución
Resumen
Pruebas estandarizadas como la Saber 11 en Colombia permiten medir el nivel académico de la población estudiantil que finaliza su etapa escolar, los resultados pueden ser aprovechados para implementar políticas educativas en un país y además se le suma la importancia que ha tomado en la actualidad para acceder a la educación superior. Aplicar técnicas de minería de datos sobre los datasets de libre acceso de las ICFES facilitará la obtención de información oculta que cualquier institución puede aprovechar para hacer más eficientes sus procesos. Este proyecto se centra en la investigación e implementación de un modelo machine learning usamos algoritmos de aprendizaje supervisado que permite analizar los resultados de las pruebas saber 11 en Colombia, interpretando las diferentes variables socioeconómicas para hallar relación con los puntajes obtenidos por los estudiantes. Usamos los árboles de decisión para generar reglas de clasificación, dicha clasificación tiene dos categorías, una es “Por encima de la media” y la otra es “Por debajo de la media”, también hacemos uso del algoritmo de regresión SGD Regressor para ver el impacto de las variables socioeconómicas en el puntaje global y adicionalmente se desarrolló una aplicación web para integrar los resultados del modelo de clasificación y contenido adicional como gráficas y análisis de los resultados obtenidos en la pruebas saber 11 desde el periodo 2017-1 hasta 2021-1. Este proyecto no tiene en cuenta indicadores académicos de los estudiantes ni de los colegios para realizar las clasificaciones y los análisis, se busca realizar interpretaciones solo de tipo descriptivo con la información que está disponible. Finalmente los resultados encontrados permiten ver el panorama del país con respecto a estas pruebas y que no se debe de tomar literalmente los resultados arrojados puesto que se puede incurrir en una malinterpretación que terminaría siendo perjudicial para colegios, estudiantes o personas involucradas. Standardized tests such as the saber 11 in Colombia allow to measure the academic level of the student population that finishes their schooling, the results can be used to implement educational policies in a country and in addition to the importance it has taken nowadays to access higher education. Applying data mining techniques on the open access ICFES datasets will facilitate obtaining hidden information that any institution can take advantage of to make its processes more efficient. This project focuses on the research and implementation of a machine learning model using supervised learning algorithms that allows analyzing the results of the saber 11 tests in Colombia, interpreting the different socioeconomic variables to find relationships with the scores obtained by students. We use decision trees to generate classification rules, such classification has two categories, one is "Above average" and the other is "Below average", we also make use of the regression algorithm SGD Regressor to see the impact of socioeconomic variables on the overall score and additionally a web application was developed to integrate the results of the classification model and additional content such as graphs and analysis of the results obtained in the saber 11 tests from the period 2017-1 to 2021-1. This project does not take into account academic indicators of students or schools to perform the classifications and analysis, it seeks to perform only descriptive interpretations with the information that is available. Finally, the results found allow us to see the panorama of the country with respect to these tests and that the results obtained should not be taken literally since this could lead to a misinterpretation that would end up being detrimental for schools, students or people involved.