Tesis
Comparação empírica de 16 algoritmos de regressão em 59 datasets
Empirical comparison of 16 regression algorithms on 59 datasets
Registro en:
FRONDANA, Giovani. Comparação empírica de 16 algoritmos de regressão em 59 datasets. 2017. 1 recurso online (63 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP.
Autor
Frondana, Giovani, 1981-
Institución
Resumen
Orientador: Jacques Wainer Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Foram testados 16 algoritmos de regressão (random forest, support vector machine ¿ linear, polinomial e radial ¿, 1-hidden-layer neural network, gradient boosting machine, k-nearest neighbor, generalized linear model com regularização lasso ou elasticnet, multivariate adaptive regression splines, cubist, relevance vector machine, partial least squares, principal component regression, extreme learning machine, RBF network e gaussian process) em 59 datasets reais, com as métricas MAE e MSE. Os algoritmos foram comparados segundo os testes de Friedman com post-hoc Nemenyi e Wilcoxon corrigido por Hommel e por meio de análise bayesiana. Os resultados sugerem que o melhor algoritmo de regressão é o cubist, ainda que para fins práticos, em datasets muito grandes, a melhor opção seja o gradient boosting machine Abstract: We evaluated 16 regression algorithms (random forest, support vector machine ¿ linear, polynomial e radial ¿, 1-hidden-layer neural network, gradient boosting machine, k-nearest neighbor, generalized linear model with regularization lasso or elasticnet, multivariate adaptive regression splines, cubist, relevance vector machine, partial least squares, principal component regression, extreme learning machine, RBF network e gaussian process) on 59 real datasets with MAE and MSE metrics. For comparisons, we followed Friedman test with Nemenyi post-hoc, Wilcoxon corrected by Hommel procedure and Bayesian analysis. The results suggest that the best regression algorithm is cubist, although for practical purposes, in very large datasets, the best option is gradient boosting machine Mestrado Ciência da Computação Mestre em Ciência da Computação