masterThesis
Modelos Escondidos de Markov para Classificação de Proteínas
Registro en:
Mesquita Brasil Khouri, Cátia; Silva Guimarães, Katia. Modelos Escondidos de Markov para Classificação de Proteínas. 2002. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2002.
Autor
Mesquita Brasil Khouri, Cátia
Institución
Resumen
A Biologia Molecular apresenta-se como uma área da Biologia bastante fértil em
aplicações de técnicas computacionais. A estrutura das moléculas de ácidos nucléicos e proteínas,
composta de partículas alinhadas ao longo de uma cadeia, permite-lhes serem tratadas
computacionalmente como seqüências de símbolos de um alfabeto finito. O estudo das
similaridades existentes entre seqüências distintas de proteínas que desempenham a mesma
função pode ajudar a traçar caminhos evolucionários comuns e descobrir semelhanças entre
diferentes organismos, que podem levar à compreensão de famílias inteiras, contribuindo para a
definição de mecanismos gerais que regem as formas de vida na Terra.
Modelos Escondidos de Markov HMMs, têm-se apresentado como uma excelente
técnica para a comparação de seqüências de proteínas, suportada por uma forte fundamentação
matemática. Este processo de modelagem é baseado nas características estatísticas do objeto de
estudo, o qual é visto como um processo aleatório parametrizado, cujos parâmetros podem ser
determinados de uma maneira bem definida e precisa. No projeto de um HMM, há três problemas
fundamentais a serem resolvidos: (1) Avaliação da probabilidade de uma seqüência de
observações, dado o HMM; (2) Determinação da melhor seqüência de estados (a mais provável);
(3) Ajuste dos parâmetros do modelo, de acordo com a seqüência observada. Neste trabalho é
apresentada uma arquitetura de HMM para modelagem de famílias de proteínas, que é
implementada com uma técnica de aprendizagem de máquina a qual permite que os parâmetros do
modelo, tais como penalidades por remoções, inserções e substituições, sejam aprendidos durante a
construção do modelo, sem a introdução de conhecimento prévio.
Para aplicar a técnica, foi desenvolvida uma ferramenta para construção de um HMM
capaz de classificar seqüências de proteínas. Foram realizados experimentos com três famílias de
proteínas, a saber, globinas, proteinoquinases e GTPases. Para cada família, um HMM foi
treinado usando um conjunto de seqüências daquela família. Os resultados dos experimentos
mostram que a técnica HMM é capaz de explorar informações estatísticas contidas em uma
grande quantidade de seqüências de proteínas de uma mesma família. Os HMM s construídos são
capazes de distinguir com um alto grau de precisão seqüências membros de seqüências não
membros das famílias modeladas