Tese
Linkage analysis and QTL mapping in simulated populations
Análise de ligação e mapeamento de QTLs em populações simuladas
Registro en:
ALVES, Alexandre Alonso. Análise de ligação e mapeamento de QTLs em populações simuladas. 2010. 115 f. Tese (Doutorado em Genética animal; Genética molecular e de microrganismos; Genética quantitativa; Genética vegetal; Me) - Universidade Federal de Viçosa, Viçosa, 2010.
Autor
Alves, Alexandre Alonso
Institución
Resumen
Como os recentes avanços na tecnologia têm levado ao desenvolvimento de novas tecnologias de genotipagem, no futuro, é mais provável que os mapas de ligação de alta densidade serão construídos a partir de marcadores dominantes e co-dominantes. Recentemente, uma abordagem estritamente genética foi proposta para a estimação da freqüência de recombinação (r) entre marcadores co-dominantes em famílias de irmãos completos. O conjunto completo de estimadores quase foi obtido, mas infelizmente, uma configuração envolvendo a estimativa da distância entre os marcadores dominantes, que segregam na proporção 3:1 e marcadores co-dominantes, não foi levada em consideração. Aqui novos nove estimadores são acrescentados ao conjunto previamente publicado, tornando possível cobrir todas as combinações de marcadores moleculares com dois a quatro alelos (sem epistasia) em uma família de irmãos completos. Isso inclui a segregação em um ou ambos os genitores, dominância e todas as configurações de fases de ligação. Como populações de retrocruzamentos (RC) são frequentemente utilizadas como populações de mapeamento, tanto em espécies autógamas, quanto em espécies alógamas foi conduzido um estudo de simulação para testar as implicações do tamanho da população, herdabilidade da característica, propriedades do QTL (r2, a e posição) e densidade de marcadores no poder de detecção e precisão do mapeamento de QTLs. Para tanto foram simuladas populações com diferentes tamanhos, com diferentes características (h2, número de QTLs e posição) e os dados analisados com dois métodos de mapeamento de QTLs comumente utilizados (mapeamento por intervalo simples (MIS) e mapeamento por intervalo composto (MIC)). Verificou-se que o tamanho da amostra tem uma grande implicação no poder de detecção e como conseqüência na estimação da magnitude da variação explicada pelo QTL e no efeito genético, em função de populações pequenas não permitirem o mapeamento de QTLs de pequeno efeito, principalmente quando esses estão envolvidos no controle genético de características de baixa herdabilidade. Também foi verificado que o posicionamento de QTLs baseados em MIC é mais acurado que MIS e que em média os QTLs mapeados estavam próximos as suas posições simuladas. Um resultado interessante é que o MIC tende a subestimar os valores de magnitude (r2) especialmente em populações grandes/ características de baixa herdabilidade e superestimá-la em populações pequenas, o que pode ser um reflexo do pequeno coeficiente de variação do erro utilizado, ou devido ao fato de quando os marcadores não se encontram na exata posição do QTL, esse parâmetro é de fato esperado ser subestimado. Destaca-se também, o fato que quando marcadores estão amplamente distribuídos ao longo do genoma (~10cM), e desse modo cobrindo a região do QTL, se um dos marcadores já estiver próximo ao QTL, um maior número de marcadores (~1cM) não melhora a precisão do mapeamento do QTL em populações suficientemente grandes. Baseado nesses resultados recomenda-se o uso de populações de tamanho adequado, ≥500, se a intenção é mapear QTLs em populações de RC, porque nessa situação, mesmo mapas de média densidade podem ser usados para mapear QTLs de grande ou pequeno efeito com grande confiabilidade. Finalmente, como os procedimentos de mapeamento de ligação e mapeamento de QTLs em famílias de irmãos completos (FIC) de espécies alógamas são bastante diversos, foi conduzido um estudo comparando o método de mapeamento por pseudo-testcross modificado (PST) (usando microsatélites), com o método de mapeamento baseado na FIC; em termos de ordenamento dos marcadores, distância entre os marcadores, comprimento total do mapa, variância das estimativas de distância e estresse. Investigou-se também o poder de detecção e a precisão de métodos de mapeamento de QTLs por intervalos baseados nos mapas PST ou no mapa para a FIC. Verificou-se que em geral as duas estratégias geram mapas altamente correlacionados com comprimentos dos grupos de ligação proporcionais. Verificou-se também que independentemente da abordagem de mapeamento de QTLs utilizadas, o poder de detecção é reduzido em populações pequenas, especialmente em situações onde a herdabilidade da característica ou magnitude do QTL é pequena. Também foi verificado que apesar dos dois métodos serem aparentemente equivalentes em termos de posicionamento do QTL para características de alta herdabilidade/ QTLs de grande efeito, o MIC baseado nos mapas pseudo-testcross prove dados mais acurados para características de baixa herdabilidade/QTLs de pequeno efeito. Como relação à magnitude dos QTLs, notou-se que ambos os métodos parecem ser equivalentes, sendo os valores superestimados para características de alta herdabilidade e subestimados para características de baixa herdabilidade, independentemente do tamanho amostral. Assim para espécies alógamas com médio nível de recursos genômicos, propõem-se que tanto a abordagem de PST quanto a abordagem baseada na FIC, e métodos de mapeamento de QTLs relacionados, possam ser utilizados para gerar mapas genéticos e mapear QTLs com alta confiabilidade. É importante ressaltar, entretanto, que outros estudos, usando diferentes cenários, i.e. diferentes coeficientes de variação do erro, diferentes números de QTLs, diferentes distribuições de marcadores, que coletivamente podem tornar a simulação um pouco mais realística, são necessários para verificar que os resultados deste trabalho se mantêm em todas as situações. Conselho Nacional de Desenvolvimento Científico e Tecnológico As high-throughput genomic tools have led to the development of novel genotyping procedures, it is likely that, in the future, high density linkage maps will be constructed from both dominant and co-dominant markers. Recently, a strictly genetic approach was described for estimating the recombination frequency (r) between co-dominant markers in full-sib families. The complete set of maximum likelihood estimators for r in full-sib families was almost obtained, but unfortunately, one particular configuration involving dominant markers, segregating in a 3:1 ratio and co-dominant markers, was not considered. Here we add nine further estimators to the previously published set, thereby making it possible to cover all combinations of molecular markers with two to four alleles (without epistasis) in a full-sib family. This includes segregation in one or both parents, dominance and all linkage phase configurations. As backcross (BC) populations are often used as mapping populations both in self pollinating species, and in out-breeding species we also undertook a simulation study to test implications of population size, trait heritability, QTL properties (r2, a and position) and marker density in the power and precision of QTL mapping. For that we have simulated populations with different sizes, with different characteristics (h2, QTL number and location) and the data analyzed with two xv QTL mapping methods (simple interval mapping (SIM) and composite interval mapping (CIM)). We found that sample size has a major implication in the detection power and as consequence in the estimation of the magnitude and additive genetic effect, as small populations do not allow mapping of low effect QTLs, especially if these QTLs are involved in the genetic control of traits with low heritability. We also found that the positioning of the QTLs based on CIM is more accurate than SIM and that on average the mapped QTLs are close to their simulated position. The results showed that CIM tend to underestimate the magnitude (r2) values especially in large population sizes/low heritabilities traits and overestimate it in smaller populations, which can be a reflection of the low coefficient of variation of the error used, or due to fact that when markers aren´t in the same of the QTL, this parameter is indeed expected to be underestimated. We also highlight the fact, that when markers are evenly distributed across the genome (~10 cM), and therefore covering the QTL region, if one of the markers is already close to the QTL, larger number of markers (~ 1cM) do not improve the precision of QTL mapping in sufficiently large mapping populations. Based on our results we recommend the use of adequate sample size, say ≥500, if the intention is map QTLs in backcross populations, because in this situation even mid-density genetic maps can be used to map QTLs of large or small effect with high confidence. Finally, as the procedures for linkage and QTL mapping in fullsib families of outbreeding species are quite diverse, we also undertook a simulation study comparing the modified pseudo-testcross (using SSR markers) and the full-sib mapping designs in terms of marker ordering, distance between markers, total map size, distance variance and stress. We also investigated the power and precision of interval mapping procedures based on the full-sib and on the modified pseudo-testcross maps. We show that in general the modified pseudo-testcross and the full-sib mapping designs generate highly correlated maps with proportional linkage groups length. That independent of the QTL mapping approach used, detection power is reduced in small populations, especially in situations where trait heritability or QTL magnitude are low. We also found that although both methods appear to be equivalent in terms of QTL positioning for high heritability traits/major effect QTLs, the CIM based on modified pseudo-testcross maps provide more accurate data for low heritability traits/minor effect QTLs in larger populations. With regard to QTLs magnitude, we show that both methods appear to be equivalent, and that the magnitude values tended to be over estimated for the high heritability trait, and underestimated for the low heritability trait, independent of the sample size. Thus, for outbreeding species with mid-level of genomic resources we propose that either the modified pseudo-testcross or the single full-sib mapping design and the related QTL mapping strategies can be used to generate genetic maps and map QTLs with high confidence. It is important to highlight however, that, other studies, using different scenarios, i.e. different coefficients of variation of the error, different number of QTLs, different marker distributions, which collectively may make the simulation a bit more realistic, are needed in order to see if the results of our work hold true in every situation.