Trabajo de grado - Maestría
Clasificación de semioquímicos asociados a coleópteros del suborden Polyphaga mediante redes neuronales artificiales
Fecha
2022Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Valencia Colman, Laura Sofía
Institución
Resumen
En esta investigación buscamos establecer la relación entre los compuesto que median la interacción y el mensaje que transmiten para los coleópteros del suborden Polyphaga. Para ello, nos propusimos desarrollar herramientas de aprendizaje de máquina para predecir la respuesta de un individuo al exponerse a un cierto compuesto; es decir, establecer la naturaleza del semioquímico según la especie a la que pertenezca el individuo y, a la vez, buscar patrones entre estas moléculas. Construimos una base de datos relacional basada en el lenguaje SQL en la que almacenamos información correspondiente a las categorías taxonómicas de los insectos, sus hospederos y los semioquímicos reportados para cada especie; así como, el tipo de semioquímico, es decir, si es feromona (de agregación, de rastro, sexual, ovoposición, etc) o aleloquímico (cairomona, sinomona o alomona); si presenta atracción específica (macho y/o hembra) y la metodología mediante la cual se evaluó su actividad (pruebas de campo, electroantenografía u olfatometría). La información con la cual alimentamos esta base de datos provino de una revisión de 957 artículos publicados en revistas especializadas, en los cuales se reportan 981 compuestos como semioquímicos. Para implementar las técnicas de aprendizaje de máquina, requerimos una caracterización cuantitativa tanto de la estructura química de cada uno de los semioquímicos, como de la clasificación taxonómica de los insectos. Para lo primero empleamos un conjunto de 1287 descriptores moleculares, este conjunto es hiper-redundante dado que se busca poder incluir la mayor cantidad de información sobre las características de cada compuesto y su posible vínculo con la propiedad esperada. Para la caracterización de las categorías taxonómicas creamos un código taxonómico numérico capaz de dar cuenta de la similitud de dos especies. Una vez calculamos las variables procedimos a seleccionar los más discriminantes o apropiados para una clasificación dada. El proceso de selección de variables lo hicimos con las técnicas de Análisis de Componentes Principales, Bosques Aleatorios y Boruta-SHAP. Para la predicción de la función de los semioquímicos y la búsqueda de patrones entre ellos implementamos los algoritmos de: C-means, mapas auto-organizados de Kohonen y perceptrones multicapa; todos empleando Python. La combinación de estas herramientas nos permitió dilucidar un primer patrón de clasificación relacionado con su origen biosintético y así clasificar el conjunto de semioquímicos según de las rutas biosintéticas de las cuales se derivan. Además, logramos establecer un modelo capaz de asignar el tipo de mensaje que transmite un compuesto dado, es decir la función que cumple para la pareja insecto-molécula; en otras palabras adscribimos una función a cada semioquímico dependiendo del insecto con que interactúa. (Texto tomado de la fuente) In this research we seek to establish the relationship between the compounds that mediate the interaction and the message they transmit for beetles of the suborder Polyphaga. Consequently, we set out to develop tools employing machine learning to predict the response of each individual when exposed to a certain compound; that is, to establish the nature of the semiochemical according to the species to which the individual belongs, and at the same time look for patterns between these molecules. We built a relational database based on SQL language in which we store information corresponding to the taxonomic categories of insects, their hosts and the semiochemicals reported for each species; as well as the type of semiochemical, that is, if it corresponds to a pheromone (aggregation, trace, sexual, oviposition, etc.) or an allelochemical (kairomone, sinomone or allomone); if it presents specific attraction (male, female, larva) and the methodology by which its activity was evaluated (field tests, electroantenography or olfactometry). The information with which we fed this database came from a review of 957 articles published in specialized journals, in which 981 compounds are reported as semiochemicals. To implement machine learning techniques, we require a quantitative characterization of both the chemical structure of each of the semiochemicals and the taxonomic classification of insects. For the first, we use a set of 1287 molecular descriptors, this set is hyper-redundant since it seeks to be able to include the greatest amount of information about the characteristics of each compound and its possible linkage with the expected property. For the characterization of the taxonomic categories we created a numerical taxonomic code capable of accounting for the similarity of two species. Once we calculated the variables, we proceeded to select the most discriminating or appropriate for a given classification. The variable selection process was carried out using Principal Component Analysis, Random Forest and Boruta-SHAP techniques. For the prediction of the function of semiochemicals and the search for patterns between them, we implement the following algorithms: C-means, Kohonen self-organized maps and multilayer perceptrons; all using Python. The combination of these tools allowed us to elucidate a first classification pattern related to their biosynthetic origin and thus classify the set of semiochemicals according to the biosynthetic routes from which they are derived. In addition, we managed to establish a model capable of assigning the type of message transmitted by a given compound, that is, the function it fulfills for the insect-molecule pair; in other words, we ascribe a function to each semiochemical depending on the insect with which it interacts.