Tesis
Curve estimation = optimization, variable selection and clustering data = Estimação de curvas: otimização, seleção de variáveis e agrupamento de dados
Estimação de curvas : otimização, seleção de variáveis e agrupamento de dados
Registro en:
Autor
Acuña Collazos, Julián Alfonso, 1982-
Institución
Resumen
Orientador: Ronaldo Dias, Adriano Zanin Zambom Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica Resumo: Esta tese de doutorado trata de três problemas relacionados com estimação de curvas em otimização restrita, seleção de variáveis e agrupamento de dados, considerando expansões B-splines para representar curvas observadas. Em primeiro lugar, no planejamento da trajetória em tempo real de veículos não tripulados, sensores, radares e outros instrumentos são usados para coletar informação sobre os possíveis osbtáculos a serem evitados e os caminhos a serem seguidos. Uma vez que na prática as observações dos sensores têm erros de medição, então a estocasticidade dos dados tem que ser incorporada dentro dos modelos. Consideramos usar um algoritmo genético para o problema de otimização restrita de encontrar a trajetória de comprimento mínimo entre dos locais, evitando os obstáculos no caminho. Para incorporar a variabilidade das leituras dos sensores, propomos um algoritmo genético modificado, abordando a estocasticidade das regiões factíveis. Desta forma, a probabilidade de que uma possível solução no espaço de busca é factível pode ser derivada a partir das observações aleatórias de obstáculos e caminhos, criando um algoritmo de aprendizagem de dados em tempo real. Em segundo lugar, o duplo problema de testar a significância preditiva de uma covariável particular, e a identificação do conjunto de covariáveis relevantes é comum em pesquisa aplicada e investigações metodológicas. Para o modelo de regressão linear funcional onde as variáveis preditoras são observados sobre pontos discretizados e a resposta é escalar, é considerado expansões de funções base para as covariáveis funcionais e é aplicado o teste da razão de verossimilhança. Um novo método de seleção de variáveis baseado sob p-valores correspondentes ao testar cada preditor é apresentado, o qual é mostrado a ser consistente na seleção dos preditores relevantes a partir de conjunto de preditores disponíveis, que são permitidos a crescer junto com o tamanho da amostra. Finalmente, o agrupamento de dados funcionais procura identificar subconjuntos de curvas com formas semelhantes e também estimar as curvas médias representativas de cada subconjunto de curvas. Em relação a este problema, uma nova abordagem é proposta para o agrupamento de dados funcionais baseada na combinação da teoría de testes de hipóteses e um algoritmo clustering. O objectivo principal é classificar curvas observadas usando a combinação de duas estatísticas de teste como medida de distância para realizar o agrupamento. A vantagem do método proposto em relação aos outros métodos, é a capacidade de realizar agrupamento de dados não supervisionado para diferentes conjuntos de curvas suaves com diferente número de funções base. A fim de estimar o verdadeiro número de clusters, apresenta-se a adaptação de alguns métodos existentes para escolher o número verdadeiro de clusters para conjuntos de dados funcionais. Em geral, esta tese apresenta e estuda três problemas de estimação de curvas que envolvem otimização e análise de dados funcionais. O uso das metodologias apresentadas neste documento fornecem uma valiosa contribuição para estudos emergentes em diferentes áreas de pesquisa, tais como engenharia, medicina, química e ciências naturais e sociais Abstract: In this thesis is explored three problems related to curve estimation in constrained optimization, variable selection and clustering data, by considering B-splines expansions to represent observed curves. Firstly, in real-time trajectory planning for unmanned vehicles, on-board sensors, radars and other instruments are used to collect information on possible obstacles to be avoided and pathways to be followed. Since, in practice, observations of the sensors have measurement errors, the stochasticity of the data has to be incorporated into the models. We consider using a genetic algorithm for the constrained optimization problem of finding the trajectory with minimum length between two locations, avoiding the obstacles on the way. To incorporate the variability of the sensor readings, we propose a modified genetic algorithm, addressing the stochasticity of the feasible regions. In this way, the probability that a possible solution in the search space is feasible can be derived from the random observations of obstacles and pathways, creating a real-time data learning algorithm. Secondly, the dual problem of testing the predictive significance of a particular covariate, and identification of the set of relevant covariates is common in applied research and methodological investigations. For the functional linear regression model where the predictor variables are observed over a grid of discretized points and the response is scalar, is considered basis expansions of the functional covariates and apply the likelihood ratio test. A new variable selection method based on p-values from testing each predictor is presented, which is proven to be consistent in selecting the relevant predictors from set of available predictors which is allowed to grow with the sample size. Thirdly, functional clustering data seeks to identify subsets of curves with similar shapes and also estimate representative mean curves of each subset of curves. Regarding to this issue, a new approach is proposed for functional data clustering based on a combination of hypothesis testing theory and a clustering algorithm. The aim of the procedure is to classify observed curves using the combination of two test statistics as distance measurement to perform functional clustering. The advantage of the proposed method over other methods is the ability to perform unsupervised clustering to different sets of smooth curves with different number of basis functions. In order to estimate the true number of clusters, it is presented the adaptation of some existing methods to choose the number of clusters for functional datasets. Overall this thesis presents and studies three curve estimation problems involving optimization and functional data analysis. The use of the methodologies presented in this document provides a valuable contribution to the emerging studies in different research areas, such as engineering, medicine, chemistry and natural and social sciences Doutorado Estatistica Doutor em Estatística CAPES