Alternative measures for model comparison and application of machine learning and dimensionality reduction methods for genomic selection with censored data

dc.contributorMartins Filho, Sebastião
dc.contributorhttp://lattes.cnpq.br/3918050985377865
dc.contributorVeroneze, Renata
dc.creatorPereira, Geraldo Magela da Cruz
dc.date2022-02-03T14:13:54Z
dc.date2022-02-03T14:13:54Z
dc.date2020-05-11
dc.date.accessioned2023-09-27T21:49:44Z
dc.date.available2023-09-27T21:49:44Z
dc.identifierPEREIRA, Geraldo Magela da Cruz. Medidas alternativas para comparação de modelos e aplicação de métodos de aprendizado de máquina e de redução de dimensionalidade para seleção genômica com dados censurados. 2020. 87 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.
dc.identifierhttps://locus.ufv.br//handle/123456789/28618
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/8966749
dc.descriptionDados censurados são encontrados em diversas características de interesse no melhoramento animal, como por exemplo, tempo ao abate em suínos, idade ao primeiro parto em bovinos, resistência à doença em peixes. A modelagem destas características é comumente realizada via modelos lineares, que podem ou não considerar a natureza censurada dos dados. Os modelos G-BLUP, RR-BLUP e ssGBLUP são exemplos de modelos que não consideram a presença de observações incompletas nos dados. A classe de modelos bayesianos BGLR (Bayesian Generalized Linear Regression), possibilita a modelagem de fenótipos censurados. Recentemente tem surgido o interesse na utilização de modelos de sobrevivência para a análise de dados genômicos com observações censuradas. Neste contexto, estudos que avaliem a utilização de medidas mais adequadas para o cálculo da acurácia e do viés, bem como a utilização de métodos de aprendizado de máquina de sobrevivência, não foram encontrados na literatura consultada. O objetivo geral deste estudo foi contribuir para a discussão acerca das metodologias mais indicadas para a comparação de modelos, e para a realização de predições em estudos de seleção genômica com dados censurados simulados e reais de juvenis de dourada (Sparus aurata). As metodologias propostas foram comparadas com as metodologias tradicionalmente utilizadas em genômica. Para os dados simulados, foram comparadas as medidas de correlação: de Pearson (CP), maximal (CM) e de Pearson para dados censurados (CPC); e de viés: regressão linear simples e regressão Tobit. A predição de valores genéticos genômicos foi realizada pelos modelos misto de Cox e normal truncado, considerando diferentes cenários. Os resultados mostraram, que principalmente no cenário com herdabilidade de QTL igual à 0,27, as medidas CM e/ou CPC, mostraram-se estatisticamente superiores à CP. O coeficiente de regressão associado aos efeitos marginais para dados censurados e não censurados apresentou valores semelhantes aos obtidos pela regressão linear. Do ponto de vista estatístico, as metodologias propostas são mais adequadas para a análise de dados censurados, visto que em sua formulação, elas consideram a presença de fenótipos não observados. Para os dados reais, foi considerada a utilização dos métodos Random Survival Forest (RSF) e Gradient Boosting Machine e Análise de Componentes Principais Supervisionados em seleção genômica, sendo estes comparados ao método Regressão Ridge Bayesiana (BRR). Os modelos foram comparados via validação cruzada 7-fold, pelas medidas Area Under the Curve, Brier Score, correlação de Spearman, e pela proporção de indivíduos selecionados, e também pela localização de SNPs ou grupos de ligação relevantes. Os resultados mostraram que, os modelos RSF e BRR, apresentaram valores estatisticamente iguais de habilidade preditiva. O rank dos Top-40 SNPs obtido pela RSF apresentou maior interseção com os ranks obtidos pelos métodos BRR e modelo misto de Cox. A maior correlação de Spearman entre os GEBVs estimados via BRR e as probabilidades de sobrevivência, foi obtida pela RSF. A utilização de subconjuntos de SNPs selecionados pelos métodos propostos, não resultou em diferenças significativas na habilidade preditiva do modelo misto de Cox. Por fim, nota-se que o método RSF, apresenta um desempenho semelhante ao da BRR, sendo possível sua aplicação em estudos genômicos. Palavras-chave: Seleção genômica ampla. Valores genéticos genômicos. Dados censurados. Modelo misto de Cox. Aprendizado de máquina.
dc.descriptionCensored data are found in several characteristics of interest in animal breeding, such as, time to slaughter in pigs, age at first calving in cattle, resistance to disease in fish. The modeling of these characteristics is commonly performed via linear models, which may or may not consider the censored nature of the data. The G-BLUP, RR-BLUP and ssGBLUP models are examples of models that do not consider the presence of incomplete observations in the data. The class of Bayesian models BGLR (Bayesian Generalized Linear Regression), allows the modeling of censored phenotypes. Recently there has been an interest in the use of survival models for the analysis of genomic data with censored observations. In this context, studies evaluating the use of more appropriate measures to calculate accuracy and bias, as well as the use of survival machine learning methods, were not found in the literature consulted. The general objective of this study was to contribute to the discussion about the most suitable methodologies for the comparison of models, and for the realization of predictions in studies of genomic selection with censored data simulated and real of juveniles of Gilthead Sea Bream (Sparus aurata). The proposed methodologies were compared with those traditionally used in genomics. For the simulated data, the correlation measures were compared: Pearson (CP), maximal (CM) and Pearson for censored data (CPC); and bias: simple linear regression and Tobit regression. The prediction of genomic breeding values was performed by the mixed Cox and Normal truncated models, considering different scenarios. The results showed that, especially in the scenario with heritability of QTL equal to 0.27, the CM and / or CPC measures were statistically superior to the CP. The regression coefficient associated with the marginal effects for censored and uncensored data showed values similar to those obtained by linear regression. From a statistical point of view, the proposed methodologies are more suitable for the analysis of censored data, since in their formulation, they consider the presence of unobserved phenotypes. For the real data, the use of the Random Survival Forest (RSF) and Gradient Boosting Machine and Supervised Principal Component Analysis methods in genomic selection was considered, these being compared to the Ridge Bayesian Regression (BRR) method. The models were compared via 7-fold cross-validation, by Area Under the Curve, Brier Score, Spearman correlation, and by the proportion of selected individuals, and also by the location of relevant SNPs or link groups. The results showed that the RSF and BRR models showed statistically equal values of predictive ability. The rank of the Top-40 SNPs obtained by RSF showed a greater intersection with the ranks obtained by the BRR methods and Cox mixed model. The greatest Spearman correlation between the GEBVs estimated via BRR and the survival probabilities, was obtained by RSF. The use of subsets of SNPs selected by the proposed methods did not result in significant differences in the predictive ability of the Cox mixed model. Finally, it is noted that the RSF method has a performance similar to that of the BRR, being possible its application in studies genomics. Keywords: Genomic wide selection. Genomic breeding values. Censored data. Mixed Cox model. Machine learning.
dc.formatapplication/pdf
dc.languagepor
dc.publisherUniversidade Federal de Viçosa
dc.rightsAcesso Aberto
dc.subjectMelhoramento genético - Modelos estatísticos
dc.subjectAprendizado do computador
dc.subjectRegressão e Correlação
dc.titleMedidas alternativas para comparação de modelos e aplicação de métodos de aprendizado de máquina e de redução de dimensionalidade para seleção genômica com dados censurados
dc.titleAlternative measures for model comparison and application of machine learning and dimensionality reduction methods for genomic selection with censored data
dc.typeTese


Este ítem pertenece a la siguiente institución