TC
Penalised complexity priors for the reconstruction of past population size from phylogenies
Fecha
2021-12Autor
Couto, Cristiana Aparecida Nogueira
Institución
Resumen
This work seeks to understand the influence of prior distributions on inferences about
population dynamics obtained from phylogenies. More specifically, considering the posterior
results obtained from the Skyride model (Minin et al., 2008). The Skyride model assumes
that the effective population size has a smooth trajectory and assigns a Gaussian Markov
Random Fields (GMRF) prior to the logarithm of the effective population size. This model
has an unknown precision parameter τ , associated with the smoothness of the curve. We
propose an analysis investigating the choice of the prior for the τ parameter. In particular,
we study the penalised complexity priors in comparison with the default choice of the
Gamma distribution. A review of the literature was conducted, considering previous studies on the estimation
of effective population size using phylogenies. Then, we conducted simulation studies to
estimate the effective population size from phylogenetic trees. We run the experiments for
phylogenies generated with the phylodyn package. We looked at populations with constant,
exponential, cyclic, and bottleneck effect trajectories, and then performed experiments
analyzing a real dataset of influenza A/H3N2. Finally, through the performance evaluation
metrics, it was possible to show that a PC prior leads to more accurate results, regardless
of the number of leaves in the phylogenetic tree. Neste trabalho busca-se entender a influência da escolha da distribuição a priori nas inferências sobre a dinâmica populacional obtidas a partir de filogenias. Mais especificamente, considerando os resultados a posteriori obtidos a partir do modelo Skyride (Minin et al., 2008). Este modelo assume que o tamanho efetivo da população é dado por uma trajetória suave e define um processo de campo markoviano aleatório gaussiano (GMRF)
como priori sobre o logaritmo do tamanho efetivo da população. O modelo depende de um parâmetro de precisão τ , associado com a suavidade da curva. O trabalho propõe uma análise investigando a escolha da priori para o parâmetro τ . Em particular, estudamos as
chamadas prioris de complexidade penalizada (Penalised Complexity Priors) em comparação com a escolha padrão da distribuição Gamma. Foi feita uma investigação na literatura considerando trabalhos já realizados acerca da estimação do tamanho efetivo de uma população ao longo do tempo a partir de filogenias. A partir disso, propôs-se aplicar os estudos comparativos para realização de estimação para conjuntos de dados filogenéticos,
tanto simulados quanto reais. A realização de experimentos para um conjunto de dados simulados foi feita com o pacote phylodyn do R abrangendo populações com trajetórias de tamanho constante, exponencial, cíclica e com efeito gargalo, e, em seguida, foram realizados experimentos com um conjunto de dados reais de Influenza H3N2. Através das métricas de avaliação da performance foi possível notar que a priori PC leva a resultados mais precisos, independentemente do número de folhas na árvore filogenética.