Trabajo de grado - Maestría
Metodología de clasificación de proteínas usando aprendizaje semi-supervisado para la anotación de organismos fúngicos.
Registro en:
Universidad de Caldas
Repositorio institucional Universidad de Caldas
Autor
Narváez Prado, Carlos Wilfredo
Institución
Resumen
Ilustraciones, gráficas spa:El análisis de los datos genómicos por procedimientos experimentales de laboratorio se ha caracterizado por ser muy demorado y costoso, generando una brecha bastante grande entre datos de origen biológico analizados y datos sin ningún tipo de tratamiento, este problema ha sido resuelto en los últimos años con la bioinformática; el avance en la ciencia ha permitido incrementar considerablemente la información genética de la mayoría de organismos biológicos.
La bioinformática se ha consolidado como una herramienta moderna, la cual, con base en métodos computacionales y grandes bases de datos, permite realizar análisis genómicos, transcriptónicos y proteómicos; su importancia radica en que ahora es posible intervenir de manera económica y rápida en el análisis de datos biológicos, lo cual, sin duda alguna, redunda en grandes avances en la investigación de la genómica funcional y estructural.
De igual forma, la bioinformática permite proporcionar inferencias valiosas desde el punto de vista evolutivo, especialmente con los hongos, los cuales tan solo tienen cinco grupos evolutivos estables, de acuerdo a la clasificación de sus órganos reproductores.
EL presente proyecto propone una metodología para la clasificación de proteínas a partir de estrategias basadas en el aprendizaje de máquina semi-supervisado, el cual es probado sobre bases de datos UniProtKB/Swiss-Prot, las cuales se encuentran solo parcialmente analizadas, es decir, contienen datos etiquetados (analizados) y una gran mayoría de datos no etiquetados (sin ningún tipo de análisis de las secuencias proteicas).
En el documento se aborda el estado actual del tema de investigación, se explica conceptos básicos de biología molecular y bioinformática, tales como: aminoácidos, proteínas, funciones moleculares, ontología genética, análisis de proteínas, aprendizaje de máquina semi-supervisada, máquinas de vectores de soporte, entrenamiento y clasificación de secuencias proteicas, etc., también se hace una descripción detallada paso a paso del proceso realizado: estructuración de las bases de datos, implementación, validación y análisis de resultados de los dos modelos de clasificación escogidos: máquinas de vectores de soporte transductivas (TSVM) y máquinas de vectores de soporte clásicas (KSVM).
La ejecución de este proyecto facilita la comprensión de los organismos fúngicos y por su puesto el entendimiento del comportamiento del hongo “Hemileia vastatrix” también llamado “roya del café”, este organismo es de especial interés para los temas de investigación de la universidad colombiana, sin duda alguna, generará beneficios económicos y científicos para el gremio caficultor nacional. La comprensión de estos organismos puede servir para idear estrategias de erradicación o inhibición de estos organismos, los cuales generan daños en los cultivos de café, especialmente en el centro del país. eng:Bioinformatics has been consolidated as a modern tool, which, based on computational methods and large databases, allows to carry out genomic, transcriptonic and proteomic analyzes. Its importance lies in fact that the biological analysis of data becomes faster and economically feasible, which without any doubt constitutes a great advance in the research of functional and structural genomics. In the same way, bioinformatics allow to provide valuable inferences from the evolutionary point of view, especially with fungi population, of which just five stable groups are distinguished, according to a classification based on their reproductive organs. The present project proposes a methodology for the classification of proteins from strategies based on semi-supervised machine learning, which is tested on UniProtKB / Swiss-Prot databases. Proteins are just partially analyzed, that is, they contain labeled (analyzed) data and unlabeled data (without any protein sequence analysis). This document addresses the current state of the research topic, explains basic concepts of molecular biology and bioinformatics such as: amino acids, proteins, molecular functions, genetic ontology, protein analysis, semi-supervised machine learning, vector machines support, training and classification of protein sequences, etc. There is also a detailed step-by-step description of the process carried out: databases structuring, implementation, validation and analysis of the results of two classification models chosen: Transductive Support Vector Machines (TSVM) and classical Support Vector Machines (KSVM). The execution of this project facilitates the understanding of fungal organisms and of course the behavior understanding of the fungus “Hemileia vastatrix” also called "coffee rust". This biological organism is of special interest for the Colombian university research and without any doubt will generate economic and scientific benefits for the national coffee grower union. Understanding these organisms can be used to devise strategies to eradicate or inhibit these organisms which damage coffee crops especially in the center of the country. 1 INTRODUCCIÓN/ 1.1 CAMPO TEMÁTICO / 1.2 PLANTEAMIENTO DEL PROBLEMA / 1.3 JUSTIFICACIÓN/ 1.4 OBJETIVOS / 1.4.1 OBJETIVO GENERAL/ 1.4.2 OBJETIVOS ESPECÍFICOS / 2 MARCO TEÓRICO Y ESTADO DEL ARTE / 2.1 CONCEPTOS BÁSICOS SOBRE BIOLOGÍA Y BIOINFORMÁTICA/2.1.1 AMINOÁCIDOS/ 2.1.2 PROTEÍNAS / 2.1.3 ESTRUCTURAS DE LAS PROTEÍNAS/ 2.1.4 FUNCIONES MOLECULARES DE LAS PROTEÍNAS/ 2.2 INFORMACIÓN SECUENCIAL/ 2.3 CARACTERIZACIÓN DE PROTEINAS/ 2.4 ONTOLOGÍA GENÉTICA Y FUNCIONES PROTEICAS / 2.5 TEORÍA DEL ANÁLISIS DE PROTEÍNAS/ 2.6 CLASIFICACIÓN DE SECUENCIAS PROTEICAS/ 2.7 APRENDIZAJE DE MÁQUINA/ 2.8 MÁQUINAS DE VECTORES DE SOPORTE – SVM / 2.8.1 CASO LINEALMENTE SEPARABLE/2.8.2 CASO LINEALMENTE NO SEPARABLE PARA KSVM (KERNEL NO LINEAL). / 2.8.3 MODELO TSVM -– PROCEDIMIENTO CÓNCAVO-CONVEXO Y ALGORITMO “UNIVERSAL TRANSDUCTIVE SUPPORT VECTOR MACHINE UTSVM”./ 2.8.4 HIPERPARÁMETROS (HP) /70 3 DESCRIPCIÓN DETALLADA DEL PROCESO / 3.1 MATERIALES Y MÉTODOS/ 3.1.1 BASES DE DATOS/.1.2 METODOLOGÍA GENERAL / 3.2 DISEÑO DE LA SOLUCIÓN/ 3.2.1 CONSTRUCCIÓN DE LA MATRIZ DE CARACTERÍSTICAS / 3.2.2 CLASIFICACIÓN/3.2.2.1 Definición de clases/ 3.2.2.2 Análisis de proteínas/ 3.2.2.3 Definición de matrices etiquetada y no etiquetada/ 3.2.2.4 Implementación de los modelos utilizados para el entrenamiento y las predicciones/ 3.3 DETALLES DE APLICACIÓN, IMPLEMENTACIÓN Y VALIDACIÓN/ 3.3.1 VALIDACIÓN/ 3.3.2 DESEMPEÑO/ 4 ANÁLISIS DE RESULTADOS / 5 CONCLUSIONES Y RECOMENDACIONES / 5.1 CONCLUSIONES /5.2 RECOMENDACIÓN Y TRABAJOS FUTUROS.E Maestría Se realizará la publicación de un artículo científico. Magister en Ingeniería Computacional Procesamiento de secuencias biológicas y bioinformática