Trabajo de grado - Maestría
Modelo de aprendizaje automático para predecir el riesgo de evento adverso en analgésicos opioides aplicando datos de secuenciación de última generación (NGS) en una población de pacientes colombianos
Fecha
2022-11-02Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Garzón Venegas, Eliana del Pilar
Institución
Resumen
OBJETIVO: Desarrollar un modelo basado en aprendizaje automático para la predicción del riesgo de evento adverso, a partir del genotipo en farmacogenes asociados con la farmacocinética y farmacodinámica de analgésicos opioides, a partir de datos de secuenciación de última generación (NGS), en una cohorte de pacientes colombianos.
MÉTODOS: Se desarrolló un pipeline de anotación de variantes y anotación funcional en 39 genes asociados a la farmacocinética y farmacodinamia de 17 analgésicos opioides de uso común en Colombia a partir de 2080 VCF de exomas provenientes de la secuenciación de nueva generación (NGS). Se realizó un modelo de aprendizaje automático para la clasificación del riesgo efecto adverso utilizando bosques aleatorios, naive Bayes y perceptrón multicapa.
RESULTADOS: El pipeline de anotación de variantes y anotación funcional en 39 genes asociados a la farmacocinética y farmacodinamia de 17 analgésicos opioides de uso común en Colombia detecta 9 variantes de riesgo. Los algoritmos de aprendizaje automático se entrenan y evalúan a partir de un dataset compuesto por 1900 variantes genéticas con score de riesgo desde 0.5 a 1.5, 50 variantes genéticas con un escore de 1.5 a 2 y 9 variantes genéticas con score de 2.5 a 4, las cuales están asociadas con efecto adverso, se analizan empleando bosques aleatorios, naive bayes y perceptrón multicapa, obteniendo resultados deficientes en la clasificación de la clase 2 y clase 3 debido al desbalance de datos en estas clase, con lo cual se realiza un enriquecimiento del dataset a partir de variantes de la base de datos PharmGKB, ampliando la data de la clase 3. Se evalúan varias combinaciones de clases por medio de bosques aleatorios y perceptrón multicapa, obteniendo los mejores resultados de clasificación, considerado únicamente dos clases, clase 1, suprimiendo valores de score de 0.5 y 1 y clase 2 compuesta por la unión de datos con score de 2.5 a 5.
CONCLUSIONES: Fue posible desarrollar modelos computacionales de clasificación del riesgo de efecto adverso. Sin embargo, se concluye que el desequilibrio en las clases, genera problemas de clasificación, lo que resulta en una reducción significativa de la sensibilidad y la precisión de los modelos de aprendizaje automático. Para poder generar relaciones entre variantes genéticas y su asociación con la presentación de efecto adverso se hace indispensable considerar variables de diversas ómicas que le den un peso importante a la asociación, acompañado de la información clínica y de seguimiento de los pacientes. (Texto tomado de la fuente) GOAL: To develop a model based on machine learning for prediction of the risk of
adverse event, from the genotype in associated pharmacogenes with the
pharmacokinetics and pharmacodynamics of opioid analgesics, based on data from nextgeneration sequencing (NGS), in a cohort of colombian patients.
METHODS: A variant annotation and functional annotation pipeline was developed
for 39 genes associated with the pharmacokinetics and pharmacodynamics of 17
commonly used opioid analgesics in Colombia from 2080 VCF exomes from
nextgeneration sequencing (NGS). A machine learning model was performed for
risk adverse effect classification using random forest, naive Bayes, and multilayer
perceptron.
RESULTS: The variant annotation and functional annotation pipeline in 39 genes
associated with the pharmacokinetics and pharmacodynamics of 17 commonly
used opioid analgesics in Colombia detected 9 risk variants. Machine learning
algorithms are trained and evaluated from a dataset composed of 1,900 genetic
variants with risk scores from 0.5 to 1.5, 50 genetic variants with scores from 1.5
to 2, and 9 genetic variants with scores from 2.5 to 4. , which are associated with
an adverse effect, will be analyzed using occasional forests, naive bayes and
multilayer perceptron, obtaining poor results in the classification of class 2 and
class 3 due to the imbalance of data in these classes, with which an enrichment is
performed. of the dataset from variants of the PharmGKB database, expanding the
data of class 3. Various combinations of classes are evaluated by means of random
forests and multilayer perceptron, obtaining the best classification results,
considering only two classes, class 1, suppressing score values of 0.5 and 1 and
class 2 composed of the union of data with scores from 2.5 to 5.
CONCLUSIONS: It was possible to develop computational models for classifying
the risk of adverse effects. However, it is concluded that the imbalance in the
classes generates classification problems, which results in a significant reduction
in the sensitivity and accuracy of the machine learning models. In order to generate
relationships between genetic variants and their association with the presentation
of adverse effects, it is essential to consider variables of various omics that give
significant weight to the association, accompanied by clinical information and
patient follow-up.