Trabajo de grado - Doctorado
A computational architecture to identify and classify LTR retrotransposons in plant genomes
Registro en:
Universidad de Caldas
Repositorio Institucional Universidad de Caldas
Autor
Orozco Arias, Simon
Institución
Resumen
Ilustraciones spa:Esta tesis doctoral se ha centrado en la aplicación de técnicas de machine learning y deep learning para el estudio de los LTR retrotransposones, con el objetivo de mejorar la comprensión a nivel genómico de plantas de interés agroindustrial como el arroz, el maíz, el café y la caña de azúcar, y que podría aplicarse a cualquier otro genoma vegetal u otros organismos.
Investigaciones recientes han demostrado el impacto de los elementos transponibles en el fenotipo de cultivos de interés, como el color de los granos de maíz, el color y el sabor de las naranjas, el color de la piel de las patatas, el tamaño y la forma de los tomates, y el color y el sabor de las uvas, que se producen por la inserción de estos elementos cerca o dentro de los genes. Aunque existen técnicas y herramientas bioinformáticas para la detección y clasificación de los elementos transponibles, aún no es posible obtener resultados fiables, debido a la gran diversidad de sus estructuras, patrones de replicación y ciclos de vida. Además, estos componentes genómicos tienen características que hacen muy complejo su estudio, como la especificidad de las especies, la alta diversidad a nivel de nucleótidos (baja homología entre secuencias), las largas regiones no codificantes y su naturaleza repetitiva. Por ello, nuevas técnicas como el machine learning y el deep learning podrían mejorar el rendimiento tanto en el tiempo de ejecución como en la precisión de los resultados.
En el desarrollo de este proyecto de investigación se utilizaron los algoritmos de aprendizaje automático más conocidos, así como algunas arquitecturas de redes neuronales profundas que se han generalizado en la comunidad científica en los últimos años. Se extrapolaron los métodos de extracción y selección de características, las técnicas de preprocesamiento, los algoritmos y las arquitecturas que se han utilizado con éxito en conjuntos de datos similares a los elementos transponibles. Asimismo, esta tesis doctoral tendrá un impacto positivo en la comunidad científica en los campos de la bioinformática, la genómica y la agricultura, ya que el software desarrollado aquí y su uso en otros genomas podría servir de base para futuras investigaciones relacionadas con la mejora genética, la comprensión de la evolución de las especies y la relación entre los organismos y el medio ambiente. Además, se generó conocimiento sobre el uso de nuevas técnicas en datos genómicos (especialmente LTR retrotransposones), como la influencia de la naturaleza de los datos en la precisión de los resultados, mejores técnicas de preprocesamiento (selección y extracción de características, reducción de la dimensionalidad, transformación de datos, entre otras), mejores hiperparámetros y métricas que se ajusten mejor a dichos elementos.
Finalmente, esta propuesta de investigación condujo a la creación de un software bioinformático funcional que, gracias a las técnicas seleccionadas, permite la detección y clasificación de LTR retrotransposones en plantas de interés. Este software está disponible para la comunidad científica y puede ser utilizado en el contexto de varios proyectos masivos de secuenciación y ensamblaje de genomas, como el proyecto de los 3.000 genomas del arroz, la secuenciación de 10.000 genomas de plantas o el proyecto de secuenciación de 1,5 millones de especies eucariotas. Todos los códigos y scripts desarrollados durante este proyecto están disponibles en https://github.com/simonorozcoarias/MLinTEs. eng:This PhD thesis focused on the application of machine learning and deep learning techniques for the study of LTR retrotransposons, with the aim of improving the understanding at the genomic level of plants of agro-industrial interest such as rice, maize, coffee and sugar cane, and which could be applied to any other plant genome or other organisms. Recent research has demonstrated the impact of transposable elements on the phenotype of crops of interest, such as the colour of maize kernels, the colour and flavor of oranges, the skin colour of potatoes, the size and shape of tomatoes, and the colour and flavor of grapes, which are produced by the insertion of these elements near or into genes. Although bioinformatics techniques and tools exist for the detection and classification of transposable elements, it is not yet possible to obtain reliable results, due to the great diversity of their structures, replication patterns and life cycles. In addition, these genomic components have characteristics that make their study very complex, such as species specificity, high diversity at the nucleotide level (low homology between sequences), long non-coding regions and their repetitive nature. Therefore, new techniques such as machine learning and deep learning could improve performance in terms of both execution time and accuracy of results. In the development of this research project, the most well-known machine learning algorithms were used, as well as some deep neural network architectures that have become widespread in the scientific community in recent years. Feature extraction and selection methods, pre-processing techniques, algorithms and architectures that have been successfully used on datasets similar to transposable features were extrapolated. Also, this Ph.D. thesis will have a positive impact on the scientific community in the fields of bioinformatics, genomics and agriculture, as the software developed here and its use on other genomes could serve as a basis for future research related to genetic improvement, understanding the evolution of species and the relationship between organisms and the environment. In addition, knowledge was generated on the use of new techniques on genomic data (especially LTR retrotransposons), such as the influence of the nature of the data on the accuracy of the results, better pre-processing techniques (feature selection and extraction, dimensionality reduction, data transformation, among others), and better hyper-parameters and metrics that better fit such elements. Finally, this research proposal led to the creation of a functional bioinformatics software that, thanks to the selected techniques, allows the detection and classification of LTR retrotransposons in plants of interest. This software is available to the scientific community and can be used in the context of several massive genome sequencing and assembly projects, such as the 3,000 rice genomes project, the sequencing of 10,000 plant genomes or the 1.5 million eukaryotic species sequencing project. All the codes and scripts developed during this project are available at https://github.com/simonorozcoarias/MLinTEs. Contents Acknowledgements / 1. Introduction / 1.1. Background / 1.2. Research problema / 1.3. Justi cation / 1.4. Research questions / 1.5. Research hypothesis / 1.6. Organization of this Document / 2. Thesis Objectives 11 2.1. General Objective /2.2. Speci c Objectives / 3. The State of the Art / 3.1. Context about retrotransposons and their characteristics / 3.2. Context about machine learning models in TEs / 3.3. Conclusions and perspectives / 4. DNA coding schemes and measuring metrics / 4.1. Context / 4.2. Conclusions and perspectives / 5. InpactorDB 20 5.1. Context / 5.2. Conclusions and perspectives / 6. K-mers-based-methods 23 6.1. Context / 6.2. Conclusions and perspectives / 7. Neural Network to curate LTR retrotransposons libraries 26 7.1. Context / 7.2. Conclusions and perspectives / 8. Inpactor2: A one-shot so ware based on deep learning / 8.1. Context / 8.2. Conclusions and perspectives / 9. Application of a DL-based tool to the identification and classification of LTR retrotransposons in the genus Co ea / 9.1. Abstract / 9.2. Introduction / 9.3. Materials and methods / 9.3.1. Co ea sequencing resources available / 9.3.2. Creation of co ee dataset for re-training Inpactor2 / 9.3.3. Library of LTR-RTs in Co ea genus and its annotation / 9.3.4. Data analysis and visualization / 9.3.5. Raw Illumina reads mapping results / 9.4. Results / 9.4.1. Re-training of the model for the Co ea genus / 9.4.2. Construction of a LTR-RT library for the Co ea genus / 9.4.3. Utilization of a Co ea LTR-RT library for the annotation of assemblies in the Co ea genus / 9.4.4. Relationship between the LTR-RT proportion and the genome size assembly / 9.5. Discussion / 9.6. Conclusion / Appendices / A. Appendix A / B. Appendix B / 10. Discussions, conclusions, and contributions / 10.1. Discussions / 10.1.1. DNA coding schemes and available datasets / 10.1.2. e detection problema / 10.1.3. Integration of ML models in a one-shot tool / 10.2. Conclusions / 10.3. Contributions / Bibliography Doctorado Doctor(a) en Ingeniería Línea de Investigación en modelos biocomputacionales y bioinformática