Uma metodologia para detecção de interações epistáticas em estudos de associação

Ribeiro, Igor Magalhães

dc.contributor	Borges, Carlos Cristiano Hasenclever
dc.contributor	http://lattes.cnpq.br/
dc.contributor	Arbex, Wagner Antonio
dc.contributor	Franco, Gloria Regina
dc.contributor	Oliveira, Fabrízzio Condé
dc.contributor	Fonseca Neto, Raul
dc.contributor	Bernardino, Heder Soares
dc.creator	Ribeiro, Igor Magalhães
dc.date	2019-10-24T13:25:54Z
dc.date	2019-10-21
dc.date	2019-10-24T13:25:54Z
dc.date	2019-06-19
dc.date.accessioned	2023-09-29T16:12:32Z
dc.date.available	2023-09-29T16:12:32Z
dc.identifier	https://repositorio.ufjf.br/jspui/handle/ufjf/11217
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/9135567
dc.description	Genomic Wide Association Studies (GWAS) aims to identify SNPs that in uence a particular phenotype, such as speci c characteristics or diseases. SNPs are responsible for allele formation and this markers are used to identify a lócus that may represent a close correlation to a gene or the mutation itself. To determine the genetic mechanisms that in uence the phenotype are used thousands or even hundreds of thousands of SNPs that are genotyped from two groups of individuals: case and control. The reason behind some complex diseases such as cervical cancer, leukemia, type I and II diabetes involve multiple genes combining to express this phenotype. This interaction is known as epistasis. In epistasis a gene can inhibit or potentiate the e ects of the other. From the statistical point of view, the objective is to nd a non-linear mapping between the genotype and the phenotype. In addition to the complexity of nding causal SNPs involved in epistatic interactions, most complex diseases have low heritability. Thus, the lower the heritability, the greater the in uence of environmental factors and the less the genotype explanation of the phenotype. Most of GWAS use statistical tests of p-value hypotheses of each SNP present in the data set. These studies are often based on regression models. However, this type of model is e cient to capture only marginal e ects or e ects of additive gene actions. Cases where the genotype-phenotype relationship is linear. This work proposes a methodology capable of nding non-linear relationships between genotype-phenotype in data sets with large amounts of SNPs. The approach was also developed to deal with di erent levels of heritability. The proposed model is composed of three distinct steps. The rst step is responsible for identifying and selecting subgroups of signi cant SNPs. The dataset is partitioned into small xed-size groups and all possible permutations of each group are sorted by cross-validation by a ensemble method of boosting classi ers. The best groups are selected for the later stage. In the second step a process of ranking the selected SNPs from the subgroups de ned in the rst step is performed. A random forest model with potential to capture the relevance of the SNPs evaluated is applied at this stage of the process. The ranking of markers serves as a reference for the generation of a population markers, which will serve as the basis for the application of an evolutionary method of genetic programming that aims to determine possible associations between the SNPs ranked. At the end of the process, the genotypic relations that express the phenotype of interest from epistatic interactions are presented, based on the interpretability of the generated rules. The proposed methodology was compared with other models in the literature, including the reference method known as MDR, a variation of the MDR with an initialization method known as ReliefF and GPAS. Several experiments were carried out with simulated datasets, including data sets composed of 100, 1000 and 10000 SNPs with di erent levels of heritability varying from 0:4 to 0:1 and MAF of 0:4 and 0:2. The method was analyzed in data presenting epistasis without main e ect in 70 models known in the literature with heritability ranging from 0:4 to 0:01. We also performed experiments with interactions between more than two SNPs and experiments with data sets that present an expressive number of SNPs. The results denote the use of the methodology is promising compared to other models in GWAS literature.
dc.description	Estudos de associação genômica ampla (GWAS) buscam identi car marcadores moleculares do tipo SNP que in uenciam um determinado fenótipo de interesse, como por exemplo características especí cas ou doenças. Os SNPs são responsáveis pela formação de alelos sendo esse tipo de marcador utilizado para identi car um lócus que pode representar uma correlação próxima a um gene ou a própria mutação. Para determinar os mecanismos genéticos que in uenciam o fenótipo são utilizados milhares ou até centenas de milhares de SNPs que são genotipados à partir de dois grupos de indivíduos: os que expressam e os que não expressam o fenótipo respectivamente, estudo conhecido como caso-controle. A causa de algumas doenças complexas como câncer cervical, leucemia, diabetes do tipo I e II envolvem múltiplos genes que co-atuam para expressar esse fenótipo, essa interação é denominada de epistasia. Nesse tipo de interação um gene pode inibir ou potencializar o efeitos dos demais. O entendimento adequado desse processo passa pela determinação do mapeamento não-linear entre o genótipo e o fenótipo. Além da complexidade de encontrar os SNPs causais envolvidos em interações epistáticas, a maior parte das doenças complexas apresentam baixa a herdabilidade. Desta forma, quanto menor a herdabilidade, maior a in uência de fatores ambientais e menor a explicação genotípica do fenótipo. A maior parte dos estudos de GWAS utilizam testes estatísticos de hipóteses com valor-p de cada SNP presente no conjunto de dados, sendo estes estudos frequentemente baseados em modelos de regressão. Porém, esse tipo de modelo é e ciente para capturar apenas efeitos marginais ou efeitos de ações gênicas aditivas, ou seja, casos onde a relação genótipo-fenótipo é linear. Neste trabalho é proposta uma metodologia capaz de encontrar relações não lineares entre genótipo-fenótipo em bases de dados com grandes quantidades de SNPs. A metodologia também foi desenvolvida para lidar com diferentes níveis de herdabilidade. O modelo proposto é composto de três etapas distintas. A primeira etapa é responsável pela identi cação e seleção de subgrupos de SNPs de interesse. Assim, o conjunto de dados é particionado em pequenos grupos de tamanho xo e todas as possíveis permutações intra-grupos são classi cadas através de validação cruzada aplicada em um método de comitê de classi cadores do tipo boosting. Os grupos que apresentarem marcadores com maior potencial explicativo são selecionados para a fase posterior. Na segunda etapa, um processo de ranqueamento dos marcadores SNPs selecionados a partir dos subgrupos de nidos na primeira etapa, um modelo de oresta randômica com potencial para capturar a relevância dos SNPs avaliados é aplicado nesta fase do processo. Na terceira etapa, o ranqueamento dos marcadores serve como referência para a geração de uma população de marcadores, que servirá de base para a aplicação de um método evolucionista de programação genética que tem como objetivo determinar possíveis associações entre os SNPs ranqueados. Assim, ao nal do processo, são apresentadas as relações genotípicas que expressam o fenótipo de interesse a partir de interações epistáticas, baseando-se na interpretabilidade das regras geradas. A metodologia proposta foi comparada com outros modelos existentes na literatura, inclusive com o método referência conhecido como MDR, uma variação do MDR com um método de inicializa ção conhecido como ReliefF e o GPAS. Foram realizados diversos experimentos com bases de dados simuladas, dentre eles, conjuntos de dados compostos de 100, 1000 e 10000 marcadores, com diferentes níveis de herdabilidade variando de 0:4 e 0:1 e MAF de 0:4 e 0:2. O método foi analisado em dados que apresentam epistasia sem efeito principal em 70 modelos conhecidos na literatura com herdabilidade variando de 0:4 até 0:01. Também foram executados experimentos com interações entre mais de dois SNPs e experimentos com conjuntos de dados com um número expressivo de SNPs. Os resultados indicam que a utilização da metodologia é promissora se comparada com outros modelos na literatura de GWAS.
dc.format	application/pdf
dc.language	por
dc.publisher	Universidade Federal de Juiz de Fora (UFJF)
dc.publisher	Brasil
dc.publisher	ICE – Instituto de Ciências Exatas
dc.publisher	Programa de Pós-graduação em Modelagem Computacional
dc.publisher	UFJF
dc.rights	Acesso Aberto
dc.subject	Bioinformática
dc.subject	GWAS
dc.subject	Inteligência computacional
dc.subject	Aprendizagem de máquina
dc.subject	Programação genética
dc.subject	Bioinformatics
dc.subject	GWAS
dc.subject	Computational intelligence
dc.subject	Machine learning
dc.subject	Genetic programming
dc.subject	CNPQ::CIENCIAS EXATAS E DA TERRA
dc.title	Uma metodologia para detecção de interações epistáticas em estudos de associação
dc.type	Tese

Este ítem pertenece a la siguiente institución

Universidade Federal de Juiz de Fora (Brasil)