Thesis
Aprimoramento da anotação N-terminal de proteínas através da predição de peptídeo sinal em proteínas ortólogas e desenvolvimento de uma ferramenta automática para a identificação de grupos ortólogos contendo erros de anotação
Fecha
2012Registro en:
MENEZES NETO, Armando de. Aprimoramento da anotação N-terminal de proteínas através da predição de peptídeo sinal em proteínas ortólogas e desenvolvimento de uma ferramenta automática para a identificação de grupos ortólogos contendo erros de anotação Belo Horizonte: 2012. 107 f. Tese (Doutorado em Ciências na área de concentração Biologia Celular e Molecular)-Programa de Pós-Graduação em Ciências da Saúde, Centro de Pesquisas René Rachou, Fundação Oswaldo Cruz, Belo Horizonte, 2012.
Autor
Menezes Neto, Armando de
Institución
Resumen
O peptídeo sinal é um motivo encontrado, geralmente, na extremidade N-terminal de
proteínas e a sua presença determina a entrada na via clássica de transporte intracelular, após a translocação da proteína para o lúmen do retículo endoplasmático. Portanto, a presença ou ausência do peptídeo sinal influencia a função biológica de uma proteína ao ser
um fator determinante da sua localização subcelular. Como a conservação de função entre proteínas ortólogas é esperada, foi hipotetizado que a localização subcelular e,
consequentemente, a presença do peptídeo sinal deveriam, também, se apresentar
conservadas. Partindo desta premissa, as predições de peptídeo sinal em proteínas
ortólogas de cinco espécies de Plasmodiumforam analisadas.
Predições de peptídeo sinal (SignalP) e informações de ortologia (OrthoMCL-DB)
para proteínas de cinco espécies do gênero Plasmodium(Plasmodium falciparum,
Plasmodium vivax, Plasmodium knowlesi, Plasmodium bergueie Plasmodium yoelii) foram combinadas em uma estratégia inovadora, visando a identificação de grupos de proteínas ortólogas que apresentam predições de peptídeo sinal divergentes (grupos Mistos). As proteínas pertencentes a estes grupos foram submetidas a uma análise comparativa baseada na inspeção visual de alinhamentos múltiplos e de modelos gênicos e regiões genômicas flanqueadoras da extremidade N-terminal. Novos modelos gênicos foram sugeridos para aquelas proteínas que apresentavam prováveis erros de anotação de sequência, especialmente na região N-terminal. Alguns dos novos modelos gênicos foram validados por RT-PCR. Os resultados da inspeção visual foram usados para treinar uma Máquina de Suporte de Vetores (Support Vector Machine) com o objetivo de classificar grupos Mistos em: (1)Com erros de anotação ou (2)Sem erros de anotação. O SVM foi aplicado para classificar os grupos Mistos de cinco bancos de dados, montados a partir de vinte e duas espécies.
Os grupos contendo proteínas com predições de peptídeo sinal divergentes
apresentaram uma alta taxa de erros de anotação. Um total de 478 proteínas de
Plasmodiumforam reanotadas sendo que a maioria apresentou inversões das suas
predições de peptídeo sinal originais, representando um impacto significativo no conjunto
final de proteínas destinadas à via clássica de transporte intracelular, principalmente para
Plasmodium vivaxe Plasmodium yoelii. O classificador baseado nos dados da inspeção
visual se mostrou bastante flexível e robusto, apresentando uma performance boa e
consistente mesmo frente a cenários variados de agrupamento de espécies.
A metodologia proposta introduz uma abordagem simples, porém promissora, para a
realização de tarefas de curadoria e controle de qualidade dos dados de anotação de
sequências proteicas em uma escala genômica. Os resultados do classificador definem a base para seu desenvolvimento em uma ferramenta computacional e os resultados das
reanotações em Plasmodiumimpactarão a busca por novos alvos vacinais e
quimioterápicos.