Dissertation
Análise multi-ômica das vias associadas à tuberculose infantil
Registro en:
ROCHA, Eduardo Fukutani. Análise multi-ômica das vias associadas à tuberculose infantil. 2022. 44f. Dissertação, (mestrado)-Instituto Gonçalo Moniz, Fundação Oswaldo Cruz, Salvador, 2022.
Autor
Rocha, Eduardo Fukutani
Resumen
INTRODUÇÃO: A tuberculose é uma das principais causas de mortalidade infantil relacionada a doenças infecciosas no mundo. Se trata de uma doença infecciosa que afeta principalmente os pulmões, causada pelo bacilo Mycobacterium Tuberculosis. Os métodos atuais para diagnosticar a TB infantil apresentam baixa performance. Assinaturas transcricionais e metabólicas para o diagnóstico da TB infantil são interessantes e promissoras, porém ainda precisam de mais validações para que o seu como testes de rotina seja possível. Assinaturas identificadas com integração de dados transcriptômicos e metabolômicos são uma alternativa promissora para o diagnóstico da TB infantil. OBJETIVO: O objetivo deste trabalho é identificar uma assinatura em dados transcriptômicos e metabolômicos integrados para classificar crianças portadoras de TB. MATERIAIS e MÉTODOS: Amostras de crianças de até 15 anos foram coletadas da cidade de Pune, do estado de Maharashtra, Índia. As amostras tiveram os seus metabólitos medidos por CL/EMAD e seus transcritos mensurados por NGS. No total, 40 amostras com dados transcriptômicos e metabolômicos foram obtidas, destas 16 são amostras do grupo caso (TB) e 24 são amostras controle. Os genes diferencialmente expressos entre os grupos caso e controle foram identificados nos dados transcriptômicos. O algoritmo de floresta aleatória foi utilizado para identificar os melhores genes classificadores entre os DEGs. A performance dos classificadores identificados foi avaliada por curvas ROC. Uma validação in silico da performance dos genes selecionados foi feita em outros conjuntos de dados. A integração dos dados transcriptômicos e metabolômicos foi realizada, para isso foi feita uma análise de correlação entre os genes selecionados e os valores de abundância dos metabólitos. Por fim, uma análise de enriquecimento de vias foi aplicada aos metabólitos correlacionados com os genes. As vias metabólicas enriquecidas foram estudadas e relacionadas à patologia da TB infantil. RESULTADOS: Os genes diferencialmente expressos foram analisados utilizando o pacote DESeq2, identificando 174 DEGs. O algoritmo de floresta aleatória foi aplicado nos dados de expressão dos DEGs, indicando 5 genes: BPI, AZU1, C1QC, AC092580.4 e MPO. Curvas ROC foram utilizadas para mensurar a performance dos DEGs e dos 5 genes, apresentando AUCs de 0,86 e 0,91 respectivamente. Um total de 27 metabólitos foram correlacionados aos 5 genes no grupo caso, enquanto 33 metabólitos foram correlacionados no grupo controle. As vias metabólicas enriquecidas condizem com o quadro observado na TB infantil. A performance dos genes selecionados foi validada em outros conjuntos de dados: GSE39939, GSE39940 e GSE41055. Para isto, curvas ROC mensuraram a performance dos genes na classificação de amostras dos outros conjuntos de dados. As principais AUCs nos outros conjuntos foram de 0,80 no GSE39939, 0,85 no GSE39940 e 0,70 no GSE41055. CONCLUSÃO: O conjunto de genes classificadores proposto é uma alternativa que demonstrou bastante consistência na sua performance, inclusive em outros conjuntos de dados. Este conjunto classificador é um passo à frente para a identificação de um conjunto de genes como potenciais biomarcadores para a TB infantil Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES). INTRODUCTION: Tuberculosis is one of the main causes of infectious disease related infant mortality worldwide. It is an infectious disease that mainly affects the lungs, caused by the Mycobacterium Tuberculosis bacillus. Current methods for diagnosing childhood TB exhibit poor performance. Transcriptional and metabolic signatures for the diagnosis of childhood TB are interesting and promising, but they still need further validation to be used as routine tests. Signatures identified with integration of transcriptomic and metabolomic data are a promising alternative for the diagnosis of childhood TB. OBJECTIVE: The objective of this work is to identify a signature in integrated transcriptomic and metabolomic data to classify children with TB. MATERIALS AND METHODS: Samples from children with age up to 15 years were collected from the city of Pune, state of Maharashtra, India. The samples had their metabolites measured by CL/EMAD and their transcripts measured by NGS, a total of 54 samples with transcriptomic and metabolomic data have been retrieved, from which 16 samples comprises the case group (TB) and 24 samples comprises the control group. The differentially expressed genes between the case and control groups were identified in the transcriptomic data. The random forest algorithm was used to identify the best classifier genes among the DEGs. The performance of the identified classifiers was evaluated by ROC curves. An in silico validation of the performance of selected genes was performed on other datasets. The integration of transcriptomic and metabolomic data was performed, for which a correlation analysis was performed between the selected genes and the metabolite abundance values. Finally, a pathway enrichment analysis was applied to the metabolites correlated with the genes. The enriched metabolic pathways were studied and related to the pathology of childhood TB. RESULTS: The differentially expressed genes were analyzed using the DESeq2 package, identifying 174 DEGs. The random forest algorithm was applied to DEGs expression data, indicating 5 genes: BPI, AZU1, C1QC, AC092580.4 and MPO. ROC curves were used to measure the DEGs and the 5 genes’ classifying performance, presenting AUCs of 0.86 and 0.91 respectively. A total of 27 metabolites were correlated to the 5 genes in the case group, while 33 metabolites were correlated in the control group. The enriched metabolic pathways are consistent with the childhood TB pathology. The performance of selected genes was validated in other datasets: GSE39939, GSE39940 and GSE41055. For this, ROC curves measured the performance of genes in the classification of samples from the other data sets. The top AUCs in the other sets were 0.80 in GSE39939, 0.85 in GSE39940 and 0.70 in GSE41055. CONCLUSION: The proposed set of classifier genes is an alternative that has shown a lot of consistency in its performance, including in other datasets. This classifier set is a step forward towards the identification of a set of genes as potential biomarkers for childhood TB