dc.contributor | Borges, Carlos Cristiano Hasenclever | |
dc.contributor | http://lattes.cnpq.br/ | |
dc.contributor | Arbex, Wagner Antonio | |
dc.contributor | Franco, Gloria Regina | |
dc.contributor | Oliveira, Fabrízzio Condé | |
dc.contributor | Fonseca Neto, Raul | |
dc.contributor | Bernardino, Heder Soares | |
dc.creator | Ribeiro, Igor Magalhães | |
dc.date | 2019-10-24T13:25:54Z | |
dc.date | 2019-10-21 | |
dc.date | 2019-10-24T13:25:54Z | |
dc.date | 2019-06-19 | |
dc.date.accessioned | 2023-09-29T16:12:32Z | |
dc.date.available | 2023-09-29T16:12:32Z | |
dc.identifier | https://repositorio.ufjf.br/jspui/handle/ufjf/11217 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/9135567 | |
dc.description | Genomic Wide Association Studies (GWAS) aims to identify SNPs that in uence a particular
phenotype, such as speci c characteristics or diseases. SNPs are responsible for
allele formation and this markers are used to identify a lócus that may represent a close
correlation to a gene or the mutation itself. To determine the genetic mechanisms that
in uence the phenotype are used thousands or even hundreds of thousands of SNPs that
are genotyped from two groups of individuals: case and control. The reason behind some
complex diseases such as cervical cancer, leukemia, type I and II diabetes involve multiple
genes combining to express this phenotype. This interaction is known as epistasis. In
epistasis a gene can inhibit or potentiate the e ects of the other. From the statistical
point of view, the objective is to nd a non-linear mapping between the genotype and
the phenotype. In addition to the complexity of nding causal SNPs involved in epistatic
interactions, most complex diseases have low heritability. Thus, the lower the heritability,
the greater the in uence of environmental factors and the less the genotype explanation
of the phenotype. Most of GWAS use statistical tests of p-value hypotheses of each SNP
present in the data set. These studies are often based on regression models. However,
this type of model is e cient to capture only marginal e ects or e ects of additive gene
actions. Cases where the genotype-phenotype relationship is linear. This work proposes
a methodology capable of nding non-linear relationships between genotype-phenotype
in data sets with large amounts of SNPs. The approach was also developed to deal with
di erent levels of heritability. The proposed model is composed of three distinct steps.
The rst step is responsible for identifying and selecting subgroups of signi cant SNPs.
The dataset is partitioned into small xed-size groups and all possible permutations of
each group are sorted by cross-validation by a ensemble method of boosting classi ers.
The best groups are selected for the later stage. In the second step a process of ranking
the selected SNPs from the subgroups de ned in the rst step is performed. A random
forest model with potential to capture the relevance of the SNPs evaluated is applied
at this stage of the process. The ranking of markers serves as a reference for the generation
of a population markers, which will serve as the basis for the application of an
evolutionary method of genetic programming that aims to determine possible associations
between the SNPs ranked. At the end of the process, the genotypic relations that express
the phenotype of interest from epistatic interactions are presented, based on the interpretability
of the generated rules. The proposed methodology was compared with other
models in the literature, including the reference method known as MDR, a variation of
the MDR with an initialization method known as ReliefF and GPAS. Several experiments
were carried out with simulated datasets, including data sets composed of 100, 1000 and
10000 SNPs with di erent levels of heritability varying from 0:4 to 0:1 and MAF of 0:4
and 0:2. The method was analyzed in data presenting epistasis without main e ect in
70 models known in the literature with heritability ranging from 0:4 to 0:01. We also
performed experiments with interactions between more than two SNPs and experiments
with data sets that present an expressive number of SNPs. The results denote the use of
the methodology is promising compared to other models in GWAS literature. | |
dc.description | Estudos de associação genômica ampla (GWAS) buscam identi car marcadores moleculares
do tipo SNP que in uenciam um determinado fenótipo de interesse, como por
exemplo características especí cas ou doenças. Os SNPs são responsáveis pela formação
de alelos sendo esse tipo de marcador utilizado para identi car um lócus que pode representar
uma correlação próxima a um gene ou a própria mutação. Para determinar os
mecanismos genéticos que in uenciam o fenótipo são utilizados milhares ou até centenas
de milhares de SNPs que são genotipados à partir de dois grupos de indivíduos: os que
expressam e os que não expressam o fenótipo respectivamente, estudo conhecido como
caso-controle. A causa de algumas doenças complexas como câncer cervical, leucemia, diabetes
do tipo I e II envolvem múltiplos genes que co-atuam para expressar esse fenótipo,
essa interação é denominada de epistasia. Nesse tipo de interação um gene pode inibir
ou potencializar o efeitos dos demais. O entendimento adequado desse processo passa
pela determinação do mapeamento não-linear entre o genótipo e o fenótipo. Além da
complexidade de encontrar os SNPs causais envolvidos em interações epistáticas, a maior
parte das doenças complexas apresentam baixa a herdabilidade. Desta forma, quanto
menor a herdabilidade, maior a in uência de fatores ambientais e menor a explicação
genotípica do fenótipo. A maior parte dos estudos de GWAS utilizam testes estatísticos
de hipóteses com valor-p de cada SNP presente no conjunto de dados, sendo estes
estudos frequentemente baseados em modelos de regressão. Porém, esse tipo de modelo
é e ciente para capturar apenas efeitos marginais ou efeitos de ações gênicas aditivas,
ou seja, casos onde a relação genótipo-fenótipo é linear. Neste trabalho é proposta uma
metodologia capaz de encontrar relações não lineares entre genótipo-fenótipo em bases
de dados com grandes quantidades de SNPs. A metodologia também foi desenvolvida
para lidar com diferentes níveis de herdabilidade. O modelo proposto é composto de três
etapas distintas. A primeira etapa é responsável pela identi cação e seleção de subgrupos
de SNPs de interesse. Assim, o conjunto de dados é particionado em pequenos grupos de
tamanho xo e todas as possíveis permutações intra-grupos são classi cadas através de
validação cruzada aplicada em um método de comitê de classi cadores do tipo boosting.
Os grupos que apresentarem marcadores com maior potencial explicativo são selecionados
para a fase posterior. Na segunda etapa, um processo de ranqueamento dos marcadores
SNPs selecionados a partir dos subgrupos de nidos na primeira etapa, um modelo de oresta
randômica com potencial para capturar a relevância dos SNPs avaliados é aplicado
nesta fase do processo. Na terceira etapa, o ranqueamento dos marcadores serve como
referência para a geração de uma população de marcadores, que servirá de base para a
aplicação de um método evolucionista de programação genética que tem como objetivo
determinar possíveis associações entre os SNPs ranqueados. Assim, ao nal do processo,
são apresentadas as relações genotípicas que expressam o fenótipo de interesse a partir de
interações epistáticas, baseando-se na interpretabilidade das regras geradas. A metodologia
proposta foi comparada com outros modelos existentes na literatura, inclusive com o
método referência conhecido como MDR, uma variação do MDR com um método de inicializa
ção conhecido como ReliefF e o GPAS. Foram realizados diversos experimentos com
bases de dados simuladas, dentre eles, conjuntos de dados compostos de 100, 1000 e 10000
marcadores, com diferentes níveis de herdabilidade variando de 0:4 e 0:1 e MAF de 0:4 e
0:2. O método foi analisado em dados que apresentam epistasia sem efeito principal em
70 modelos conhecidos na literatura com herdabilidade variando de 0:4 até 0:01. Também
foram executados experimentos com interações entre mais de dois SNPs e experimentos
com conjuntos de dados com um número expressivo de SNPs. Os resultados indicam que
a utilização da metodologia é promissora se comparada com outros modelos na literatura
de GWAS. | |
dc.format | application/pdf | |
dc.language | por | |
dc.publisher | Universidade Federal de Juiz de Fora (UFJF) | |
dc.publisher | Brasil | |
dc.publisher | ICE – Instituto de Ciências Exatas | |
dc.publisher | Programa de Pós-graduação em Modelagem Computacional | |
dc.publisher | UFJF | |
dc.rights | Acesso Aberto | |
dc.subject | Bioinformática | |
dc.subject | GWAS | |
dc.subject | Inteligência computacional | |
dc.subject | Aprendizagem de máquina | |
dc.subject | Programação genética | |
dc.subject | Bioinformatics | |
dc.subject | GWAS | |
dc.subject | Computational intelligence | |
dc.subject | Machine learning | |
dc.subject | Genetic programming | |
dc.subject | CNPQ::CIENCIAS EXATAS E DA TERRA | |
dc.title | Uma metodologia para detecção de interações epistáticas em estudos de associação | |
dc.type | Tese | |