Dissertação
Linkage disequilibrium and haplotype block structure in six commercial pig lines
Desequilíbrio de ligação e blocos de haplótipo em seis linhas comerciais de suíno
Registration in:
VERONEZE, Renata. Desequilíbrio de ligação e blocos de haplótipo em seis linhas comerciais de suíno. 2011. 73 f. Dissertação (Mestrado em Genética e Melhoramento de Animais Domésticos; Nutrição e Alimentação Animal; Pastagens e Forragicul) - Universidade Federal de Viçosa, Viçosa, 2011.
Author
Veroneze, Renata
Institutions
Abstract
O sucesso de estudos de associação e, consequentemente, a seleção genômica dependem da densidade de marcadores utilizados nas análises, a qual, por sua vez, é determinada pela extensão do desequilíbrio de ligação (LD) ao longo do genoma. O LD é organizado em blocos de haplótipos, separados por hot spots de recombinação. Essa organização do LD permite a seleção de um conjunto de SNPs que caracterizam o bloco, o que constitui uma forma adequada de escolher SNPs. O objetivo deste estudo foi estimar a extensão do desequilíbrio de ligação e o tamanho dos blocos de haplótipos de seis linhas comerciais de suínos. Foram genotipados 2050 animais com o SNP chip de 60K para suínos da Illumina. Os marcadores foram filtrados com base na MAF (>0,05) e Equilíbrio de Hardy-Weinberg (p valor > 0,001), o que resultou na utilização de, em média, 34021 SNPs para análises subsequentes. O programa Haploview foi usado no cáculo do LD de todos os pares de SNPs sintênicos, como também na construção dos blocos de haplótipo. O tamanho dos blocos de haplótipo das diferentes linhas foi comparado, utilizando-se o procedimento PROC MIXED do software SAS. Marcadores entre 105 – 175 Kb de distância apresentaram r2 (correlação entre frequências gênicas) médio acima de 0,3 para todas as linhas, o qual é considerado um bom limiar para estudos de associação. Assim, mapas com um SNP, a cada 105 Kb, seriam adequados a esse tipo de análise. Teoricamente, o LD decresce com o aumento da distância entre os SNPs, entretanto, alguns cromossomos (1, 4, 5, 7, 9, 11, 12, 13, 14, 15 e 16) apresentaram r2 elevado entre SNPs distantes em todas as linhas estudadas, o que poderia ser resultado de erros na distância e na posição dos marcadores no mapa utilizado. Em alguns cromossomos (2 e 18) alto r², entre SNPs distantes, foi observado apenas em algumas linhas, o que poderia ter sido causado por uma série de fatores que influenciam o LD. Entretanto, por tratar-se de linhas diferentes, provavelmente elas possuem histórico, endogamia e cruzamentos distintos. Dessa maneira, pode-se pressupor que esse efeito teria sido causado pela seleção, uma vez que existem características de importância econômica que com certeza, em algum momento, foram selecionadas em mais de uma linha. O tamanho médio dos blocos de haplótipos foi de 287,81 Kb, com predominância de blocos pequenos com menos de 50 Kb. Nenhuma linha apresentou blocos maiores ou menores que as demais, em todos os cromossomos, não existindo, portanto, um padrão que possa discriminar as diferentes linhas. De acordo com a extensão do LD observado neste estudo, seriam necessários 22915 SNPs informativos (MAF > 0,05) para estudos de associação que abrangerem todo o genoma. O elevado desequilíbrio de ligação, observado entre pares de SNPs distantes, pode ter sido causado por erros no mapa e, em alguns casos, por seleção, entretanto para confirmação dessa última hipótese, seria necessário um estudo mais aprofundado das regiões onde esses SNPs se encontram. Conselho Nacional de Desenvolvimento Científico e Tecnológico The success of association studies and genomic selection depends on marker density, which is determined by the linkage disequilibrium extended across the genome. The LD is organized into haplotypes blocks separated by recombination hot spots and this organization allows the selection of a set of SNPs that label the blocks. The objective of the present study was to estimate the linkage disequilibrium extent and haplotype block size of six commercial pig lines. Two thousand and fifty animals were genotyped using Illumina Porcine SNP60K. The MAF and Hardy-Weinberg equilibrium were used to filter the SNPs, which resulted, on average, in the use of 34021 markers for the subsequent analysis. The data were submitted to Haploview to calculate the LD for all SNP pairs and the haplotype blocks construction. The haplotype block size for all six lines was compared using the PROC MIXED procedure of SAS in a model with the number of SNPs per block as covariate. In markers distant 105 - 175 Kb the average r2 was above 0.3 for all lines, which is considered a usable threshold for association studies; therefore maps with one SNP every 105 Kb would be suitable for this type of analysis. Following the theory, the LD decreases when the distance between SNPs increases, but high r2 was observed between distant SNPs for some chromosomes (1, 4, 5, 7, 9, 11, 12, 13, 14, 15 and 16) in all lines that could be produced by errors in the marker distance and position of the map used. In some chromosomes (2 and 18) high r² between distant SNPs was observed only for some lines, which could be a result of a number of factors that influence the LD. However, the studied lines probably have different history and inbreeding. It could be argued that this is a selection effect, as these lines at a certain moment were certainly selected for traits of economic importance. Although the overall average haplotype block size was 287.81 Kb, a predominance of blocks with less than 50 Kb was observed for all lines. There is not a line that presents smaller or bigger blocks than the others in every chromosome; therefore there was no pattern that could be used to discriminate the lines.. According to the LD extent observed in this study, 22915 informative SNPs (MAF > 0.05) would be necessary for whole genome association studies for the six lines analysed. The high linkage disequilibrium observed between distant SNPs may have been caused by map errors and in other cases by selection. Nevertheless, to confirm the last hypothesis a detailed study would be necessary of the regions where these SNPs are found.