masterThesis
An online local pool generation method for dynamic classifier selection
Autor
SOUZA, Mariana de Araújo
Institución
Resumen
Dynamic Classifier Selection (DCS) techniques have difficulty in selecting the most competent classifier in a pool, even when its presence is assured. Since the DCS techniques rely only on local data to estimate a classifier’s competence, the manner in which the pool is generated could affect the choice of the best classifier for a given instance. That is, the global perspective in which pools are generated may not help the DCS techniques in selecting a competent classifier for instances that are likely to be misclassified. Thus, it is proposed in this work an online pool generation method that produces a locally accurate pool for test samples in overlap regions of the feature space. That way, by using classifiers that were generated in a local scope, it could be easier for the DCS techniques to select the best one for those instances they would most probably misclassify. For the instances that are far from the class borders, a simple nearest neighbors rule is used in the proposed method. In this dissertation, an overview of the area of Multiple Classifier Systems is presented, with focus on Dynamic Selection schemes. The most relevant DCS techniques are also introduced, and an analysis on their effectiveness in selecting the most competent classifier for a given instance in a globally generated pool is presented. Based on that analysis, an online local pool generation scheme is proposed and analyzed step-by-step. The proposed method is then evaluated over 20 classification problems, and the effect of its parameters on performance are analyzed. Moreover, a comparative study with other related methods is performed and the experimental results show that the DCS techniques were more able to select the best classifier for a given sample when using the proposed locally generated pool than when using a globally generated pool. Furthermore, the proposed method obtained a greater accuracy rate in comparison with the related methods for all DCS techniques, on average, and presented a considerable improvement for problems with a high proportion of borderline instances. It also yielded a significant increase in performance compared to most related methods evaluated in this work. CNPq Técnicas de Seleção Dinâmica de Classificador (DCS) têm dificuldade em selecionar o classificador mais competente em um pool, mesmo quando a presença do mesmo é garantida. Visto que as técnicas de DCS utilizam apenas dados locais para estimar a competência de um classificador, a maneira na qual o pool é gerado poderia afetar na escolha do melhor classificador para uma dada instância. Isto é, a perspectiva global na qual os pools são gerados podem não ajudar as técnicas de DCS na seleção de um classificador competente para instâncias que são mais prováveis de ser incorretamente classificadas. Portanto, é proposto neste trabalho um método online de geração de pool de classificadores que produz um pool localmente preciso para amostras de teste em áreas de sobreposição de classes no espaço de características. Dessa forma, ao usar classificadores que foram gerados em um escopo local, poderia ser mais fácil para as técnicas de DCS selecionarem o melhor classificador para essas instâncias mais difíceis de classificar. Para as amostras posicionadas longe das bordas das classes, uma simples abordagem utilizando os vizinhos mais próximos é usada no método proposto. Nesta dissertação, uma visão geral da área de Sistemas de Multiplos Classificadores é apresentada, com foco em técnicas de seleção dinâmica. As técnicas de DCS mais relevantes também são introduzidas, e uma análise da eficácia das mesmas em selecionar o classificador mais competente para uma dada amostra em um pool gerado globalmente é apresentada. Baseado nessa análise, um método de geração local de pool de classificadores é proposto e analisado passo-a-passo. O método proposto é então avaliado usando 20 problemas de classificação, e o efeito de seus parâmetros no desempenho são analisados. Além disso, um estudo comparativo com outros métodos relacionados é realizado e os resultados experimentais mostram que as técnicas de DCS foram mais capazes de selecionar o melhor classificador para uma dada instância com o pool proposto, que foi gerado localmente, do que com um pool gerado de forma global. Ademais, o método proposto obteve uma maior taxa de acerto em comparação com os métodos relacionados para todas as técnicas de DCS, em média, e apresentou uma melhora considerável para problemas com uma alta proporção de instâncias próximas das bordas entre as classes. O método proposto também obteve um aumento significativo no desempenho em comparação com a maioria dos métodos relacionados que foram avaliados neste trabalho.