Tesis
Estimação não parametrica aplicada a problemas de classificação via Bagging e Boosting
Registro en:
(Broch.)
Autor
Rubesam, Alexandre
Institución
Resumen
Orientador: Ronaldo Dias Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica Resumo: Alguns dos métodos mais modernos e bem sucedidos de classificação são bagging, boosting e SVM (Support Vector M achines ). B agging funciona combinando classificadores ajustados em amostras bootstrap dos dados; boosting funciona aplicando-se seqüencialmente um algoritmo de classificação a versões reponderadas do conjunto de dados de treinamento, dando maior peso às observações classificadas erroneamente no passo anterior, e SVM é um método que transforma os dados originais de maneira não linear para um espaço de dimensão maior, e procura um hiperplano separador neste espaço transformado. N este trabalho estudamos os métodos descritos acima, e propusemos dois métodos de classificação, um baseado em regressão não paramétrica por Hsplines (também proposto aqui) e boosting, e outro que é uma modificação de um algoritmo de boosting baseado no algoritmo MARS. Os métodos foram aplicados em dados simulados e em dados reais Abstract: Some of the most modern and well succeeded classification methods are bagging, boosting and SVM (Support Vector Machines). Bagging combines classifiers fitted to bootstrap samples of the training data; boosting sequentially applies a classification algorithm to reweighted versions of the training data, increasing in each step the weights of the observations that were misclassified in the previous step, and SVM is a method that transforms the data in a nonlinear way to a space of greater dimension than that of the original data, and searches for a separating hyperplane in this transformed space. In this work we have studied the methods described above. We propose two classification methods: one of them is based on a nonparametric regression method via H-splines (also proposed here) and boosting, and the other is a modification of a boosting algorithm, based on the MARS algorithm. The methods were applied to both simulated and real data Mestrado Mestre em Estatistica