bachelorThesis
Aplicación de redes bayesianas para el estudio de pacientes con preeclampsia.
Fecha
2023-03Autor
Altamirano Camacho, Bryan Alfonso
Chiquito Soledispa, Victor Hugo
Institución
Resumen
El presente trabajo de titulación tuvo como objetivo utilizar redes bayesianas en el estudio de
pacientes con preeclampsia. Se propusieron tres algoritmos clasificadores para entrenar el
modelo: Naïve Bayes, Tree Augmented Naïve Bayes y Semi Naïve Bayes. Se realizó una
búsqueda en revistas científicas y tesis de grado para obtener información relevante sobre la
preeclampsia y la construcción de redes bayesianas. Se aplicó la metodología Cris-Dm, que
proporciona una estructura sólida, y se utilizó el método missForest para la imputación de
valores, ya que funciona con datos mixtos y produce mejores resultados.
Se realizó un análisis de los datos para seleccionar variables relevantes utilizando la técnica
StepAIC con la librería Caret en Rstudio. Esto resultó en la selección de 11 variables
significativas. En la fase de entrenamiento del modelo, se utilizaron los tres algoritmos
propuestos. El algoritmo Semi Naïve Bayes, utilizando el método FSSJ y las variables
seleccionadas por StepAIC, proporcionó una exactitud del 78% y una red bayesiana con un solo
atributo relacionado con la enfermedad. El algoritmo Tree Augmented Naïve Bayes obtuvo una
exactitud del 74%, y el algoritmo Semi Naïve Bayes, con el método FSSJ, alcanzó una exactitud
del 76%.
Para determinar qué algoritmo ofrece mejores resultados, se compararon las métricas de
exactitud (accuracy), sensibilidad, especificidad y F1-score. Como resultado, se seleccionaron
los algoritmos Semi Naïve Bayes con el método FSSJ y Tree Augmented Naïve Bayes debido a
su mayor exactitud y número de atributos asociados a la enfermedad. Para facilitar la
comprensión por parte del personal médico especializado, se utilizó el software Genie Bayes
Fusion para visualizar las tablas de probabilidad. Esto demostró que las redes bayesianas
resultantes proporcionan mejores resultados en la predicción de la enfermedad The present degree work was to use Bayesian networks in the study of patients with
preeclampsia. Three classifier algorithms were proposed to train the model: Naïve Bayes, Tree
Augmented Naïve Bayes and Semi Naïve Bayes. A search of scientific journals and graduate
theses was performed to obtain relevant information on preeclampsia and the construction of
Bayesian networks. The Cris-Dm methodology was applied, which provides a robust structure,
and the missForest method was used for value imputation, as it works with mixed data and
produces better results.
An analysis of the data was performed to select relevant variables using the StepAIC technique
with the Caret library in Rstudio. This resulted in the selection of 11 significant variables. In the
model training phase, the three proposed algorithms were used. The Semi Naïve Bayes
algorithm, using the FSSJ method and the variables selected by StepAIC, provided an accuracy
of 78% and a Bayesian network with a single disease-related attribute. The Tree Augmented
Naïve Bayes algorithm obtained an accuracy of 74%, and the Semi Naïve Bayes algorithm, using
the FSSJ method, achieved an accuracy of 76%.
To determine which algorithm provides better results, accuracy, sensitivity, specificity and F1-
score metrics were compared. As a result, the Semi Naïve Bayes with FSSJ and Tree Augmented
Naïve Bayes algorithms were selected due to their higher accuracy and number of attributes
associated with the disease. To facilitate understanding by specialized medical personnel, Genie
Bayes Fusion software was used to visualize the probability tables. This demonstrated that the
resulting Bayesian networks provide better results in disease prediction.