Tesis
Aplicação de técnicas de reconhecimento de padrões usando os descritores estruturais de proteínas da base de dados do software STING para discriminação do sítio catalítico de enzimas
Pattern recognition using structural protein descriptors from STING database to discriminate the active site of enzymes
Registro en:
Autor
Salim, José Augusto, 1986-
Institución
Resumen
Orientadores: Fernando José Von Zuben, Goran Neshich Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação Resumo: As enzimas têm sua função determinada essencialmente por alguns resíduos específicos, denominados resíduos de aminoácidos catalíticos. A função de uma determinada proteína é mantida por milhares de anos de pressão seletiva que ocasionam a preservação de uma estrutura composta por padrões físicos, químicos e estruturais necessários para mantê-la. É frequente observar que enzimas quaisquer presentes em organismos distantemente relacionados exerçam exatamente a mesma função biológica e possuam o mesmo conjunto de resíduos de aminoácidos catalíticos, apesar de possuírem sequências proteicas muito dissimilares. Estes padrões que se conservaram por anos de evolução para manter a função das enzimas têm sido bastante estudados na literatura. Assim, o presente trabalho buscou identificar, dentre os descritores estruturais de proteínas (disponíveis na base de dados da plataforma Blue Star STING) aqueles de maior relevância para discriminar os resíduos de aminoácidos catalíticos dos não catalíticos, por meio do nanoambiente no qual estes se inserem. Buscou-se por modelos classificadores capazes de favorecerem uma interpretação de suas escolhas através de regras na forma SE-ENTÃO, compostas por descritores e seus respectivos valores. Regras foram extraídas para conjuntos de enzimas responsáveis pela catálise da mesma reação enzimática (mesma sub-subclasse EC), de forma a caracterizar o nanoambiente comum aos seus resíduos de aminoácidos catalíticos. Primeiramente, foram considerados apenas descritores estruturais de proteínas, ou seja, excluem-se descritores de conservação de estrutura primária. Esta opção foi feita com base no fato de a conservação de um determinado resíduo em uma determinada posição ser uma consequência (e não causa) de sua crucial função para a atividade de uma enzima. Buscou-se, portanto, compreender a fundo o "por que" de um resíduo ser conservado, utilizando uma "linguagem" puramente estrutural. As doze mais representativas sub-subclasses EC foram escolhidas e regras foram extraídas de forma a caracterizar os resíduos de aminoácido catalíticos de seus membros. Os resultados obtidos variam de acordo com o número de amostras catalíticas disponíveis, sendo as classes com maior número de amostras as que resultaram em regras com maior capacidade de generalização. Ainda que a caracterização dos resíduos de aminoácidos catalíticos possa ser feita apenas com os dados disponíveis, a predição de novas amostras introduz diversos desafios discutidos neste trabalho. Diferentes técnicas de amostragem e seleção de atributos foram estudadas e o impacto de tais técnicas no treinamento é também discutido. Novos descritores estruturais de proteína foram adicionados ao Blue Star STING, assim como foi feito o desenvolvimento de uma biblioteca de programação para facilitar e agilizar a extensão do conjunto de descritores do Blue Star STING Abstract: The function of enzymes are determined by specific residues, called catalytic amino acids residues. The protein function is maintained for thousands of years of selective pressure which preserves in its structure many physical-chemical and structural patterns. Frequently, enzymes from distinct organisms exert exactly the same biological function due to similar catalytic amino acid residues, even with low sequence similarities. The majority of catalytic amino acid residues prediction methods use sequence conservation features to provide classification. Seeking to understand these conserved patterns in enzyme structures, that even after years of evolution perform the same biological function, the present work searches to identify which protein structural descriptors (available in Blue Star STING platform) are capable of discriminating the amino acid catalytic residues from non-catalytic residues by means of their nanoenvironments properties. Therefore, we studied the use of classification methods available in the literature and STING structural protein descriptors to predict amino acid catalytic residues with no dependency of homologous enzymes. Considering methods capable of extracting IF-THEN rules composed of descriptors and their respective values, sets of rules were built to characterize the amino acid catalytic residues of enzymes catalyzing the same chemical reaction (same EC sub-subclass). Furthermore, it was considered only structural protein descriptors, i.e. no sequence conservation descriptor were considered. The conservation of certain amino acid in a given position is a consequence (not cause) of its crucial function for the enzyme activity. Therefore, the main purpose was to understand in depth the reason why a residue is preserved, employing a purely structural language. Twelve most representative EC sub-subclasses were considered and rules were extracted to characterize the amino acid catalytic residues of their members. The results vary as the number of available structures for each sub-subclass increases. Once it is possible to characterize the amino acid residues of a set of enzymes catalyzing the same chemical reaction, the prediction of amino acid residues in new enzymes faces several challenges discussed in this work, been the major problem the lack of data for amino acid catalytic residues in available databases. Many different techniques as sampling and feature selection methods are employed to alleviate the imbalance of data, and their impact on training are discussed. As a result, we also incorporate new structural protein descriptors to Blue Star STING and developed a new programming library to allow faster and easier extension of the Blue Star STING descriptors set Mestrado Engenharia de Computação Mestre em Engenharia Elétrica