dc.contributorBARROS, Roberto Souto Maior de
dc.contributorhttp://lattes.cnpq.br/9125082586431097
dc.contributorhttp://lattes.cnpq.br/2153962690732683
dc.creatorSANTOS, Silas Garrido Teixeira de Carvalho
dc.date2019-10-10T21:10:01Z
dc.date2019-10-10T21:10:01Z
dc.date2019-03-18
dc.date.accessioned2022-10-06T16:44:09Z
dc.date.available2022-10-06T16:44:09Z
dc.identifierhttps://repositorio.ufpe.br/handle/123456789/34465
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/3984167
dc.descriptionA predição online em ambientes em que as informações fluem de forma contínua, rápida e em grandes quantidades vem se tornando cada vez mais importante na solução de problemas reais. Nesse tipo de cenário a distribuição dos dados geralmente evolui com o tempo, desencadeando uma situação conhecida como mudança de conceito (concept drift). Dentre os principais desafios da área, um deles é fazer com que os métodos lidem com muita informação de maneira satisfatória e levando em consideração as limitações computacionais. Uma das técnicas que vem recebendo notoriedade também neste tipo de cenário é o boosting. Sua característica é combinar as hipóteses de diferentes classificadores fracos com o objetivo de transformá-los em um único classificador forte. A utilização do boosting de maneira online é uma prática relativamente nova, inspirada no sucesso da sua versão offline, e que vem se desenvolvendo com o objetivo de atender novas demandas. Por conta disso, diversos aspectos ainda permanecem pouco explorados, a exemplo dos problemas multiclasse. Esta tese propõe dois novos métodos online de boosting para problemas multiclasse. O primeiro deles (OABM1) tem por objetivo realizar uma melhor distribuição dos pesos das instâncias equiparando suas características ao tradicional AdaBoost.M1 e com uma baixa complexidade computacional; já o segundo (OABM2) foca em um tratamento mais especializado para os problemas multiclasse e é baseado no AdaBoost.M2. Argumentações teóricas foram utilizadas para demonstrar que ambos mantêm as principais características dos métodos em que são baseados e que convergem em cenários no qual os dados são independentes e identicamente distribuídos (IID). Experimentalmente, os métodos propostos foram comparados a outras abordagens semelhantes em termos de acurácia e consumo de memória. Foram utilizados cenários onde a convergência dos métodos é garantida (IID) e também cenários onde não existe essa garantia, ou seja, os dados podem mudar de distribuição e podem ter algum tipo de dependência entre eles, situação comum em ambientes com fluxo contínuo de dados. Em ambos os casos, tanto o OABM1 quanto o OABM2 apresentaram desempenho igual ou superior a outras abordagens relacionadas. Por fim, como contribuição adicional, esta tese propõe um método empírico com o objetivo de guiar na escolha de uma parametrização adequada para métodos detectores de mudanças de conceito no contexto de classificadores únicos (single classifiers). A base desse método vem de experimentos pré-processados em oito geradores artificiais, cada um deles com mudanças abruptas e graduais, além de seis bases reais, onze detectores e dois classificadores. A performance de todos os onze detectores foram comparadas utilizando seus parâmetros padrões e várias outras parametrizações prescritas pelo método. Resultados indicaram que a performance desses detectores aumenta consideravelmente com a utilização do método proposto.
dc.descriptionCNPq
dc.descriptionPredicting online on data streams, with data flowing continuously, quickly, and in large quantities, is becoming increasingly more important in tackling real-world problems. In such scenarios, data distribution usually evolves over time, a situation known as concept drift. One of the main challenges is to allow the methods to handle a lot of information in a satisfactory manner, taking into account computational limitations. One of the techniques that has been gaining notoriety in this type of scenario is boosting. Its characteristic is to combine the hypotheses of different weak learners with the goal of turning them into a single strong learner. The use of boosting in an online way is a relatively new practice, inspired by the success of its offline version, and which has been developing in order to meet new demands. Because of this, several aspects remain unexplored, such as multiclass problems. This thesis proposes two new online boosting methods for multiclasse problems. The first one (OABM1) aims to perform a better distribution of the weights of the instances, matching its characteristics to the traditional AdaBoost.M1 and with a low computational complexity; the second (OABM2) focuses on a more specialized treatment for multiclasse problems and is based on AdaBoost.M2. Theoretical arguments have been used to demonstrate that both retain the main characteristics of the methods on which they are based and that they converge in scenarios in which the data are independent and identically distributed (IID). Experimentally, the proposed methods were compared to other similar approaches in terms of accuracy and memory consumption. We used scenarios where the convergence of methods is guaranteed (IID) and also scenarios where there is no such guarantee, that is, the data can change distribution and may have some kind of dependency between them, a common situation in data stream. In both cases, both OABM1 and OABM2 showed equal or superior performance to other related approaches. Finally, as an additional contribution, this thesis proposes an empirical method with the purpose of guiding in the choice of a suitable parameterization for drift detection methods in the context of single classifiers. The basis of this framework comes from pre-processed experiments using eight artificial dataset generators, each of them with five abrupt, fast gradual, and slow gradual concept drift versions, as well as six real-world datasets, for eleven different drift detectors and two different base learners. The performance of all eleven detectors were compared using their default parameters and several other parametrizations prescribed by the method. Results indicated that the performance of these detectors increases considerably with the use of the proposed method.
dc.formatapplication/pdf
dc.languagepor
dc.publisherUniversidade Federal de Pernambuco
dc.publisherUFPE
dc.publisherBrasil
dc.publisherPrograma de Pos Graduacao em Ciencia da Computacao
dc.rightsopenAccess
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectInteligência computacional
dc.subjectAprendizagem de máquina online
dc.subjectAmbiente com fluxo contínuo de dados
dc.titleOnline boosting para problemas multiclasse
dc.typedoctoralThesis


Este ítem pertenece a la siguiente institución