masterThesis
Diagnostic analysis in generalized extreme value nonlinear regression models
Autor
OLIVEIRA JUNIOR, José Valdenir de
Institución
Resumen
In this dissertation, we consider an important class of regression models, namely: the class of generalized extreme value nonlinear regression models. Such models are commonly used in many fields to model extremal events. The main model foundations involve extreme value theory, which provides underlying laws for scenarios in which the data may contain atypical observations which results from the phenomenon of interest and not the result of measurement or recording error. In particular, we develop residual based diagnostic analysis, local influence analysis, generalized Cook’s distance and generalized leverage for the generalized extreme value nonlinear regression model. Since the expected value of the dependent variable is determined by the two parameters that index the distribution, we model each parameter separately and also both parameters jointly, thus considering three possible scenarios. Additionally, we present a model misspecification test that can be used to determine whether the fitted model is incorrectly specified. We provide Monte Carlo simulation results on the finite sample behavior of the test. The results show that the test performs well both in terms of size and power. The size simulations were performed by generating the data from the postulated model whereas in the power simulations the fitted model is different from that used for data generation. The local influence analysis is carried out using three different perturbation schemes. We show that the diagnostic procedures that focus on the scale parameter are typically less stable and more computationally challenging than that on the other model parameter. We also propose two residuals for use with the model: the standardized and deviance residuals. Empirical applications based on simulated and observed data are presented and discussed. All numerical results were obtained using the Julia programming language. CAPES A presente dissertação considera uma importante classe de modelos de regressão, a saber: a classe de modelos de regressão generalizados de valores extremos não-linear. Esses modelos são comumente utilizados em diversos campos do conhecimento para modelar eventos extremos. A fundamentação principal do modelo envolve a teoria de valores extremos, que propõe técnicas de modelagem a serem usadas em cenários em que os dados podem conter observações atípicas, resultantes do fenômeno de interesse e não de erro de medição. Em particular, na presente dissertação, nós desenvolvemos análise de diagnóstico baseada em resíduos, análise de influência local, distância de Cook generalizada e alavancagem generalizada para o modelo de regressão generalizado de valores extremos não-linear. Uma vez que o valor esperado da variável dependente é determinado pelos dois parâmetros que compõem a distribuição, modelamos cada um dos parâmetros separadamente e também conjuntamente, considerando, assim, três possíveis cenários. Também apresentamos um teste de especificação correta. A hipótese nula é a de que o modelo está corretamente especificado e a hipótese alternativa é a de que a especificação do modelo está incorreta. Apresentamos resultados de simulação de Monte Carlo que mostram que o teste proposto funciona bem em amostras finitas, apresentando baixas distorções de tamanho e poder elevado. As simulações de tamanho foram realizadas gerando-se os dados do modelo postulado, enquanto que nas simulações de poder o modelo ajustado difere do modelo do qual os dados foram gerados. A análise de influência local é desenvolvida a partir de três esquemas distintos de perturbação dos dados. Mostramos que as técnicas de diagnóstico que focam no parâmetro de escala são tipicamente menos estáveis e mais árduas computacionalmente que as que focam no outro parâmetro. Dois novos resíduos são também propostos, a saber: o resíduo padronizado e o resíduo desvio. Aplicações empíricas baseadas em dados simulados e reais são apresentadas e discutidas. Todos os resultados numéricos foram obtidos utilizando a linguagem de programação Julia.