Thesis
Análise de variantes de splicing em homem e camundongo por uma abordagem de proteogenômica
Registro en:
SILVA, R. T. da. Análise de variantes de splicing em homem e camundongo por uma abordagem de proteogenômica. 2016. 143f. Tese (Doutorado em Biologia Computacional e Sistemas) - Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de janeiro, RJ, 2016
Autor
Silva, Raphael Tavares da
Resumen
Os avanços obtidos no estudo do transcriptoma pelo uso de sequenciadores de alta vazão e na proteômica por meio da espectrometria de massas, resultaram num grande volume de dados que passou a ser integrado em diversos estudos na Bioinformática. A proteogenômica é a área da pesquisa que reúne essas tecnologias, atuando na interface entre a genômica e a proteômica para interpretar eventos moleculares como, por exemplo, o splicing alternativo. Este evento é capaz de gerar RNAs mensageiros diferentes de um mesmo gene, podendo alterar a sequência polipeptídica após a tradução e consequentemente afetar a função das proteínas. Estudos utilizando dados de RNA-Seq, estimaram que até 90% dos genes humanos sejam afetados por este evento, expandindo assim, a capacidade de geração de proteínas com diferentes funções. Esta tese reúne o desenvolvimento e a aplicação de diferentes abordagens voltadas para a identificação de variantes de splicing em dados de espectrometria de massas de linhagens celulares e amostras de diferentes tecidos de homem e camundongo. Para tal, foram criados repositórios personalizados de sequências proteicas, constituídos por sequências canônicas e peptídeos digeridos in silico derivados de isoformas preditas computacionalmente. O primeiro repositório personalizado foi aplicado em dados de espectrometria de massas de uma linhagem de células T. Foram identificados 54 peptídeos oriundos de variantes de splicing que não seriam identificados utilizando repositórios tradicionais. O segundo repositório personalizado foi aplicado em dados de espectrometria de massas de uma linhagem celular de oligodendrócitos humanos. Foram identificadas 39 isoformas que apresentaram um perfil de atuação no citoesqueleto desse tipo celular, além de terem sua função discutida no âmbito do tecido cerebral
Algumas destas variantes de splicing tiveram a expressão de seus mRNAs confirmada experimentalmente (EEF1D, KRAS, MFF, SDR39U1 e SUGT1). Ademais, foram apresentadas propostas para atribuir maior confiabilidade às isoformas encontradas a partir do número de espectros e peptídeos únicos. O terceiro e quarto repositórios personalizados foram usados em dados de espectrometria de massas das regiões cerebrais de homem e camundongo. Para a composição desses repositórios foi utilizada a montagem de transcriptoma com genoma de referência e de novo para reconstrução de transcritos provenientes de corridas de RNA-Seq. Foram identificadas variantes de splicing já conhecidas e exclusivas derivadas da montagem de transcriptoma. Entre os genes das isoformas encontradas na região do corpo caloso de homem e camundongo, sete foram identificados como ortólogos (CDC42, TPM3, EEF1D, PKM, SEPT7, SET e RUFY3). Até o momento, as abordagens desenvolvidas indicam que a utilização de repositórios proteicos personalizados e a montagem de transcriptoma contribuem para a identificação de isoformas anotadas e potencias variantes de splicing Technological improvements in data generation in transcriptomics by next generation sequencers, and in proteomics by mass spectrometry resulted in a large volume of data, which is progressively becaming integrated in Bioinformatics studies. Proteogenomics is a research area in which these technologies are combined, acting in the interface of genomics and proteomics to elucidate molecular events, for instance, alternative splicing. This event is capable to alternatively process different mRNAs from the same gene, and its translation to polypeptide sequence may be affected, consequently influencing protein function. Studies using RNA-Seq estimated that at least 90% of human genes are subject to alternative splicing, expanding the number of functionally different proteins. The aim of this thesis is the development and application of different approaches focused on alternative splicing isoforms in mass spectrometry data from cell lines and different samples from human and mouse tissues. For this purpose, we designed customized protein sequence repositories, composed by canonical sequences and in silico digested peptides from predicted isoforms. The first customized repository was applied to mass spectrometry data of a T cell line. We were able to identify 54 peptides derived by splicing variants, which could not be detected using canonical protein sequence repositories
The second customized repository was applied to mass spectrometry data of a human oligodendrocyte cell line. The 39 isoforms found are related to cytoskeleton in this cell type, and their functions in the cerebral tissue context have been considered. Five of these splicing variants were experimentally validated (EEF1D, KRAS, MFF, SDR39U1 e SUGT1). We propose an approach to assign reliability to the isoforms identified by their number of unique peptides and spectra. The third customized repository was applied to mass spectrometry data of brain regions from human and mouse. For this purpose, genome-guided and de novo transcriptome assembly were used to reconstruct transcripts from RNA-Seq data. We detected annotated alternative splicing isoforms as well as isoforms predicted by the computational transcriptome assembly. Comparing the isoforms identified in corpus callosum of human and mouse, seven were classified as orthologs (CDC42, TPM3, EEF1D, PKM, SEPT7, SET e RUFY3). The developed approaches show that customized protein repositories and transcriptome assembly contribute to identify annotated isoforms and potential alternative splicing variants