Tesis
Métodos de selección de variables óptimas para la predicción de enfermedades cardiovasculares utilizando machine learning
Fecha
2020Autor
Rodríguez Segura, Mauricio
Institución
Resumen
Las enfermedades cardiovasculares (ECV) son la principal causa de muerte en el mundo.
La detección temprana de ECV en relación con condiciones del sueño como la apnea y ˜
la actividad física han sido prometedoras y aun es un desafío encontrar nuevas formas de
prevenir su aparición. Este trabajo propone metodologías de reducción del número de variables ´
para determinar el riesgo de ECV, mediante métodos de extracción de variables óptimas, ´
con técnicas de pre-procesamiento de datos y evaluando su rendimiento para la clasificación´
predictiva con algoritmos de machine learning (ML) sobre el dataset del Sleep Heart Health
Study (SHHS). El pre-procesamiento incluyo el balanceo de datos mediante muestreo SMOTE ´
y la selección de variables óptimas para la predicción de ECV se obtuvo mediante la regresión´
logística con valor p mas bajo y el análisis de componentes principales, utilizando índices
médicos y datos de la prueba de polisomnografía. Los algoritmos de ML utilizados para
la experimentación fueron: Natıve Bayes (NB), Redes Neuronales Prealimentadas (NN),
Maquinas de Soporte Vectorial (SVM) y Bosque Aleatorio (RF). Los resultados obtenidos en ´
el modelo de NN mejoraron la precisión de estudios anteriores (0,81) y presentaron un AUC ´
competitivo (0,76).