doctoralThesis
Essays on new models and the Mellin transform: experiments in survival and radar data
Autor
VASCONCELOS, Josimar Mendes de
Institución
Resumen
Survival data have been applied in several contexts, such as survival time of mechanical components, the failure times of electrical insulator films, and in censored data from head-and-neckcancer clinical trials. The resulting data are positive-valued and are often censored of heavy tails. This latter fact suggests that tailored tools are necessary for modelling survival data behavior. In particular, there is a need for flexible models; inferential methods, such as estimation and goodness-of-fit (GoF); and conditional representation (e.g., regression and time series models). Several models have been proposed to describe survival data based on distribution families derived from transformations of reference distributions (called baselines). One of the most important derived distribution families is the beta-G family introduced by Eugene et al. [Beta-normal distribution and its applications. Communication in Statistics-Theory and Methods, 31, 497-512]. Although the beta-G class is capable of producing even distributions for bimodal data, it requires both efficient estimation methods and GoF criteria. GoF methodology proposals are sought because not rarely it is hard to distinguish models within the beta-G class using: (i) criteria without a cut-off point rule or (ii) criteria originally suitable for nested models (e.g., the Akaike Information Criteria). Further, the likelihood function for beta-G models in real and synthetic experiments have suggested the proposal of estimation criteria which do not involve such function. In this thesis, the synthetic aperture radar (SAR) imagery is taken as a concrete context for data modelling. SAR is widely regarded as an important tool for remote sensing, partly because of its ability to operate independently of atmospheric conditions and producing images in high spatial resolution. However, features from SAR images are corrupted by a multiplicative noise that imposes the use of specifically designed probabilistic models. An important SAR feature is the SAR intensity image, which is defined as the norm of a complex return. Further, experiments with real SAR intensities often produce multimodal data. Several works aimed at modeling SAR intensity data by means of distribution mixtures, but such strategy may impose a large number of parameters. In this thesis, we adopt the Mellin transform as a way to derive new tools for the understanding of survival analysis data. With this we propose: (i) new qualitative and quantitative GoF measures suitable for survival analysis data and (ii) a unique estimation method not based on the likelihood function. In the context of SAR imagery analysis, we introduce: (i) two new probabilistic models: the compound Poisson-truncated Cauchy and the G-G family with three and four parameters, respectively; and (ii) a regression model at the Gɪ⁰ distribution for speckled data. Dados de sobrevivência foram aplicadas em vários contextos, tais como o tempo de sobrevivência dos componentes mecânicos, os tempos de falha dos filmes isolantes elétricos e em dados censurados de ensaios clínicos de câncer de cabeça e pescoço. Os dados resultantes têm natureza positiva, frequentemente marcadas por censura e caudas pesadas. Este último fato sugere o uso de modelos flexíveis; métodos de inferência tal como estimação e bondade de ajuste; e ajuste condicional (por exemplo, regressão e séries temporais). Vários modelos têm sido propostos para descrever dados de sobrevivência na forma de famílias definidas pela transformação de distribuições de referência (chamadas de baselines). Uma delas é a família beta-G proposta por Eugene et al. [Beta-normal distribution and its applications. Communication in Statistics-Theory and Methods, 31, 497-512]. Embora a classe beta-G seja capaz de produzir até mesmo distribuições para dados bimodais, ela carece tanto de métodos mais eficientes de bondade de ajuste como de estimação. A problemática que suscita a proposta de métodos de comparação de ajustes é distinguir a diferença entre dois modelos definidos na classe beta-G usando critérios: (i) sem uma regra envolvendo um ponto de corte associado ou (ii) próprios de modelos encaixados (a exemplo do critério de Informação de Akaike). Além disso, a função de verossimilhança para modelos beta-G em experimentos reais e sintéticos têm sugerido a proposta de critérios de estimação que não trabalhe diretamente com esta função. Nesta tese, imagens de radar de abertura sintética (Synthetic Aperture Radar-SAR) são consideradas como um contexto concreto para modelagem de dados. O SAR tem sido indicado como uma importante ferramenta para resolver problemas de sensoriamento remoto, isso se deve a sua capacidade de operar independente de condições atmosféricas e produzir imagens em alta resolução espacial. Entretanto, as imagens SAR têm seus atributos corrompidos por um ruído multiplicativo que impõe o uso de um modelo adaptado a sua presença. Uma importante característica em imagens SAR é a imagem em intensidade SAR, que é definida como a norma de um retorno complexo. Além disso, experimentos com dados reais de intensidades SAR produzem dados multimodais. Vários trabalhos destinados a modelar dados de intensidade SAR usam misturas de distribuições, mas essa estratégia pode impor um grande número de parâmetros. Nesta tese, adotamos a transformada de Mellin como um caminho para obter novas ferramentas para a compreensão de dados de análise de sobrevivência. Com isso nós propomos: (i) uma nova medida de bondade de ajuste no aspecto qualitativo e quantitativo para dados de análise de sobrevivência e (ii) um método de estimação independente da verossimilhança. No contexto da análise de imagens SAR, apresentamos: (i) dois novos modelos de probabilidade: a composta Poisson truncado Cauchy e a família G-G com três e quatro parâmetros, respectivamente; e (ii) um modelo de regressão na distribuição Gɪ⁰ para dados speckled.