Trabajo de grado - Pregrado
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
Fecha
2021Registro en:
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
Autor
Martínez Mejía, Diego Andrés
Institución
Resumen
El estudio del material genético es un acercamiento promisorio para Thela organización y agrupación taxonómica de los organismos. Generalmente este tipo de aplicaciones emplean técnicas de "barcoding", basados en marcadores genéticos conservados, o en la secuenciación de tipo "shotgun". Sin embargo, estas metodologías están sujetas a la calidad del ADN extraído, cada marcador suele ser específico a cada taxón, o es necesario un proceso de alineamiento y acoplamiento para obtener "contigs" más largos y discriminativos entre los taxa. Debido a esto, el presente trabajo se planteó la creación de una nueva aproximación computacional que fuera capaz de realizar la clasificación taxonómica de dichas secuencias cortas al menos hasta un nivel taxonómico alto, excluyendo procesos de alineamiento. Para lograr esto, se seleccionaron algunos genomas de dos clados diferentes dentro del reino animal, los cuales fueron sometidos a un proceso de fragmentación y submuestreo con el fin de emular una base de datos representativa de la secuenciación "shotgun". Para cada fragmento se extrajo un grupo de características basado en el conteo de dímeros y monómeros. Luego de un proceso de identificación y eliminación de secuencias altamente repetitivas, se construyó una base de datos filtrada. Este tipo de información sirvió como fuente primaria para el entrenamiento de cuatro métodos de clasificación basados en el aprendizaje de máquina, los cuales fueron puestos a prueba en la tarea de asignar cada secuencia a uno de los dos grupos taxonómicos que componían la base de datos. Luego de evaluar diferentes parámetros que permitieran alcanzar el máximo desempeño de clasificación, se determinó que la mejor aproximación era a través de las redes neuronales convolucionales. A partir de esta aproximación se pudo obtener una exactitud de 81%, una precisión de 82.7%, una cobertura de 77.5%, una F medida de 80% y un MCC de 0.615, en la base de datos de prueba. The study of genetic material is a promising approach for the organization and taxonomic grouping of organisms. Generally, these types of applications employ techniques like 'barcoding', based on conserved genetic markers, or 'shotgun' sequencing. Nonetheless, these methodologies are restricted by extracted DNA quality, genetic markers usually are specific for each taxon, or it is necessary a process of aligning and coupling to obtain longer and more discriminative 'contigs' between analyzed taxa. Because of these, the present work has the objective to create a new computational approach capable of accomplishing taxonomic classification of short sequences at high taxonomic levels, at least, excluding alignment processes. To achieve this goal, I selected some genomes from two different clades of the animal kingdom. Posteriorly, these genomes were fragmented and subsampled to emulate a representative database of 'shotgun' sequencing. For each resultant DNA fragment, I extracted a group of numeric features based on monomers and dimers counting. After a process of identification and elimination of highly repetitive sequences, a filtered database was constructed. This information provided a primary source for the training of four classification methods based on machine learning. These methods were tested on the assignation of each sequence to one of the two taxonomic groups that composed the database. After the evaluation of different modeling parameters that could allow reaching the maximal performance of classification, It was determined that the best algorithm was the Convolutional Neuronal Network. Using this approach, it was possible to obtain an ACC of 81%, a precision of 82.7%, a recall of 77.5%, an F1-score of 80%, and an MCC of 0.615, for the final test database.