Trabajo de grado - Maestría
Impacto de especificar incorrectamente la distribución de los efectos aleatorios en los modelos lineales generalizados mixtos: caso Poisson y Binomial Negativa
Fecha
2017Autor
Arango Botero, Diana María
Institución
Resumen
Los modelos lineales generalizados mixtos extienden los modelos lineales al considerar variables de respuesta, cuya función de densidad de probabilidad provienen de cualquiera de las distribuciones pertenecientes a la familia exponencial (Normal, Poisson, Gamma, Binomial, Beta, entre otras), y también permiten considerar la inclusión de efectos aleatorios. La estimación de los parámetros fijos en dichos modelos se basa principalmente en la función de máxima verosimilitud, en donde se suponen que las asunciones sobre el modelo son correctas. Una de estas asunciones radica en la especificación de la distribución de los efectos aleatorios. En la literatura estadística algunos autores han abordado los efectos de la incorrecta especificación de dicha distribución en los modelos lineales generalizados mixtos con respuesta normal y binaria (Neuhaus et al. 1992, Heagerty and Kurland 2001, Neuhaus and McCulloch 2006, Litiére et al. 2007, Komárek and Lesaffre 2008, Huang 2009, Neuhaus and McCulloch 2011b), pero han sido pocos los trabajos en los que se han analizado modelos lineales generalizados mixtos con respuesta Poisson (Fabio et al. 2012, Milanzi et al. 2012, Cook et al. 2007) y con respuesta Binomial Negativa (Kondo et al. 2015, Zhao et al. 2014). A través de un estudio de simulación, en donde se consideraron diferentes distribuciones para los efectos aleatorios en modelos lineales generalizados mixtos, con una variable de respuesta Poisson y Binomial Negativa, se logró identificar el impacto de especificar incorrectamente dicha distribución. El impacto en la estimación de los parámetros fijos y en los componentes de varianza de los efectos aleatorios se evaluó en términos de la distancia relativa, presentándose los mayores valores para los componentes de varianza en general y al ajustar modelos de intercepto y pendiente aleatoria. Respecto al impacto de la especificación incorrecta sobre los errores tipo I y potencia de la prueba de Wald, dicho impacto fue determinado mediante las tasas de rechazo de las hipótesis de no efecto de los parámetros evaluados, obteniéndose las mayores tasas cuando la verdadera distribución fue la lognormal en el caso de modelos con intercepto aleatorio y Tukey bivariada, para los de intercepto y pendiente aleatoria. Abstract: The generalized linear mixed models extend the linear models to consider response variables, whose probability density function derive from any of the distributions belonging to the exponential family (Normal, Poisson, Gamma, Binomial, Beta, etc.), and also allow consider the inclusion of random effects. The estimation of fixed parameters in these models is mainly based on the maximum likelihood function, where it is assumed that the x assumptions of the model are correct. One of these assumptions is in the specification of the distribution of random effects. In the statistical literature some authors have addressed the effects of misspecification of such distribution in generalized linear mixed models with normal and binary response (Neuhaus et al. 1992, Heagerty and Kurland 2001, Neuhaus and McCulloch 2006, Liti`ere et al. 2007, Kom´arek and Lesaffre 2008, Huang 2009, Neuhaus and McCulloch 2011b), but there have been few jobs that have analyzed generalized linear mixed models with Poisson response (Fabio et al. 2012, Milanzi et al. 2012, Cook et al. 2007) and with Negative Binomial response (Kondo et al. 2015, Zhao et al. 2014). Through a simulation study, where different distributions were considered for the random effects in the generalized linear mixed models, with a Poisson and Negative Binomial response variable, the impact of misspecification of such distribution was identified. The impact on the estimation of the fixed parameters and on the variance components of the random effects was evaluated in terms of the relative distance, presenting the highest values for the components of variance in general and adjusting random intercept and slope models. Regarding the impact of the incorrect specification on Type I rates and power for the Wald-test, this impact was determined by the rejection rates of the non-effect hypothesis of the evaluated parameters, obtaining the highest rates when the true distribution was the Lognormal in the case of random intercept models and Tukey bivariate, for those of random intercept and slope.