Dissertation
Geração e análise comparativa de seqüências genômicas de Trypanossoma rangeli
Registro en:
WAGNER, Glauber. Geração e análise comparativa de seqüências genômicas de Trypanossoma rangeli. 2006. 105 f. Dissertação (Mestrado em Biologia Celular e Molecular)-Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2006.
Autor
Wagner, Glauber
Resumen
O protozoário hemoflagelado Trypanosoma (Herpetosoma) rangeli Tejera, 1920, (Kinetoplastida: Trypanosomatidae) compartilha diversas espécies de hospedeiros invertebrados e vertebrados com T. cruzi, agente etiológico da doença de Chagas. Recentemente, foram publicados os genomas de 3 espécies de tripanosomatídeos de alta relevância em saúde humana (Tri-Tryps). Porém, espécies não-patogênicas não possuem o mesmo status, e como T. rangeli não determina nenhuma patogenia ao homem, poucos trabalhos no âmbito genômico tem sido desenvolvidos. Duas abordagens metodológicas têm sido utilizadas na busca de genes em diversas espécies, a GSS (Genome Sequence Survey) que visa a geração de seqüências de clones de DNA genômico gerados aleatoriamente e a EST (Expressed Sequence Tags) que visa a geração de seqüências a partir de bibliotecas de cDNA. Neste trabalho seqüenciamos 1.720 seqüências genômicas de T. rangeli cepa SC58 através de GSS. Foi também desenvolvido no âmbito do presente estudo um sistema de anotação de seqüências, chamado GARSA (Genomic Analysis Resources for Sequence Annotation). Neste sistema, é possível executar 21 programas de bioinformática, que vão desde a avaliação de qualidade e limpeza das seqüências até análise filogenética e domínios protêicos, numa forma simples e intuitiva. Após a limpeza dos 1.720 cromatogramas, um total de 915 seqüências foram agrupadas em 375 seqüências não redundantes (GSS-nr). O conteúdo G+C das regiões codificantes foi de 55%. Análises de similaridade utilizando os programas BLAST e Interpro, identificaram similaridade em 68% das seqüências, sendo 53% proteínas hipotéticas de organismos pertencentes à mesma família, notadamente o T. cruzi. Também foram encontradas seqüências associadas ao processo de edição de mRNA (DEAD box helicase), bem como seqüências relacionadas a superfície do parasito, como trans-sialidase, metaloproteases e mucinas Foram realizadas anotações funcionais baseadas no vocabulário proposto pelo Consórcio Gene Ontology, sendo que a maior parte das anotações dentro da categoria de função molecular está relacionada com RNA helicase, serino peptidases e proteínas ligantes. Para 31% das seqüências não foi possível inferir as funções com base na similaridade com genes já determinados, podendo estas serem seqüências ainda não determinadas, seqüências específicas de T. rangeli ou regiões intergências. Até o presente momento nenhum trabalho com a finalidade de seqüenciar o genoma de T. rangeli foi desenvolvido, portanto este trabalho pode ser considerado como o primeiro com o objetivo de explorar em maior escala o genoma desta espécie. The hemoflagellate protozoan parasite Trypanosoma (Herpetosoma) rangeli Tejera, 1920 (Kinetoplastida: Tryponosomatidae) share several species of invertebrate and vertebrate hosts with T. cruzi, etiological agent of Chagas’ disease. Recently, the genome of 3 trypanosomatid species of major importance on human health (Tri-Tryps) were described but non-pathogenic
species has not been well studied, among which we include T. rangeli. Two distinct approaches have been used on genomics of several species, the GSS (Genome Sequence Survey) which aims the generation of sequences from randomly generated genomic DNA clones and EST (Expressed
Sequence Tags), directed to the generation of sequences from cDNA libraries. In the present study 1,720 genomic sequences from T. rangeli SC58 were generated by GSS. Furthermore, an integrated system for sequence analysis and annotation named GARSA (Genomic Analysis Resources for Sequence Annotation) was also developed. Through this system it is possible to run 21 bioinformatics softwares from simple sequence analysis and trimming to phylogenetic and protein domain analyses in a user-friendly and intuitive manner. After analysis of the 1,720 sequences, a total of 915 were grouped in 375 non-redundant sequences (GSS-nr). The G+C content of the coding regions was of 55%. Similarity searches based on BLAST and Interpro revealed positive for 68% of the sequences, being 53% hypothetical proteins of organisms belonging to the same family, especially T. cruzi. Also, sequences related to the mRNA editing process (DEAD box helicase), as well as from the parasite coat as trans-sialidase, metaloproteases and mucinas were found. Functional annotation based on the Gene Ontology
consortia vocabulary were carried out, mostly related to molecular function and related to RNA helicase, serino-peptidases and ligands. For 31% of the generated sequences was not possible to infer functions based on similarity searches. Thus, these sequences may represent unknown sequences, T. rangeli specific sequences or even intergenic regions. Up to now there are no reports concerning the T. rangeli genome, indicating that the present work is the first one addressing a large scale exploration of the parasite genome.