Artigo
K-mer applied in Mycobacterium tuberculosis genome cluster analysis
K-mer aplicado na análise de agrupamento de genomas de Mycobacterium tuberculosis
Registro en:
FERREIRA, L. M.; SÁFADI, T.; FERREIRA, J. L. K-mer applied in Mycobacterium tuberculosis genome cluster analysis. Brazilian Journal of Biology, São Carlos, v. 84, e258258, 2022. DOI: 10.1590/1519-6984.258258.
Autor
Ferreira, Leila Maria
Sáfadi, Thelma
Ferreira, Juliano Lino
Institución
Resumen
According to studies carried out, approximately 10 million people developed tuberculosis in 2018. Of this total, 1.5 million people died from the disease. To study the behavior of the genome sequences of Mycobacterium tuberculosis (MTB), the bacterium responsible for the development of tuberculosis (TB), an analysis was performed using k-mers (DNA word frequency). The k values ranged from 1 to 10, because the analysis was performed on the full length of the sequences, where each sequence is composed of approximately 4 million base pairs, k values above 10, the analysis is interrupted, as consequence of the program's capacity. The aim of this work was to verify the formation of the phylogenetic tree in each k-mer analyzed. The results showed the formation of distinct groups in some k-mers analyzed, taking into account the threshold line. However, in all groups, the multidrug-resistant (MDR) and extensively drug-resistant (XDR) strains remained together and separated from the other strains. De acordo com estudos realizados, cerca de 10 milhões de pessoas desenvolveram tuberculose em 2018. Desse
total, 1,5 milhão de pessoas morreram devido à doença. Procurando estudar o comportamento das sequências do
genoma da Mycobacteruim tuberculosis (MTB), bactéria responsável por desenvolver a Tuberculose (TB), foi realizada
uma análise aplicando o k-mer (frequência de palavras do DNA). Os valores de k variaram de 1 a 10, pois devido a
análise ter sido feita no comprimento total das sequencias, onde cada sequencia é composta por aproximadamente
4 milhões de pares de bases, valores de k acima de 10, a análise é interrompida, como consequência da capacidade
do programa. O intuito do trabalho foi de verificar a formação da árvore filogenética em cada k-mer analisado.
Os resultados obtidos evidenciaram a formação de grupos distintos em alguns k-mers analisados, levando-se em
consideração a linha de corte. Entretanto, em todos os grupos formados as cepas multidroga resistente (MDR) e
extensivamente resistente à droga (XDR) permaneceram juntas e separadas das demais cepas.