doctoralThesis
Classificação baseada em protótipos de decisão mais próximos e distâncias adaptativas
Autor
SILVA FILHO, Telmo de Menezes e
Institución
Resumen
A aprendizagem de máquina é um ramo da inteligência artificial, cujo objetivo é desenvolver algoritmos capazes de aprender a partir de dados a fim de realizar diferentes tarefas, como por exemplo, classificação e estimação de probabilidades de classe supervisionadas e semi-supervisionadas. Essas tarefas podem ser realizadas de forma intuitiva e com predições interpretáveis pelos métodos baseados em protótipos. Quanto a esses métodos, é preciso considerar dois pontos importantes: (i) são suscetíveis a mínimos locais causados pela má inicialização dos protótipos e (ii) são sensíveis à distância escolhida para comparar protótipos e instâncias, pois essa precisa ser capaz de modelar a variabilidade interna dos protótipos e classes para alcançar um bom desempenho. Assim, este trabalho visa a explorar a versatilidade dos métodos baseados em protótipos para apresentar soluções para as tarefas de classificação supervisionada e semi-supervisionada, ao mesmo tempo em que apresenta soluções para os dois pontos mencionados acima, principalmente na forma de novas distâncias adaptativas. Para a primeira tarefa, este trabalho introduz um novo método que apresenta uma solução para o problema dos mínimos locais e usa uma distância generalizada aplicada a dados intervalares, capaz de modelar classes desbalanceadas e sub-regiões de classe de diferentes formas e tamanhos. Esse algoritmo também é capaz de eliminar protótipos inativos e selecionar atributos automaticamente. Para a tarefa de classificação semi-supervisionada, este trabalho propõe um algoritmo de propagação de rótulos através de grafos que, ao contrário dos métodos presentes na literatura, não foca apenas na classificação de instâncias não-rotuladas, mas sim na predição de probabilidades de classe apropriadas. Este trabalho também provê uma análise de desempenho dos dois métodos propostos, comparando-os a métodos existentes, em termos de taxa de erro de classificação (primeiro método) e funções de escore apropriadas (segundo método), usando conjuntos de dados reais e sintéticos. Experimentos mostram que ambos os métodos apresentam desempenhos significativamente superiores ao estado da arte. CNPq Machine learning is a subfield of artificial intelligence, whose goal is to develop algorithms that are able to learn from data in order to perform different tasks, such as supervised and semi-supervised classification and probability estimation. These tasks can be performed intuitively and with interpretable predictions by prototype-based methods. Regarding these methods, one needs to consider two important points: (i) they are susceptible to local minima due to poor prototype initialization and (ii) they are sensible to the distance that is chosen to compare prototypes and samples, because it has to be able to model the internal variability of prototypes and classes to perform well. Therefore, this work aims at exploring the versatility of prototype-based methods to provide solutions to the tasks of supervised and semi-supervised classification, while also presenting solutions to both points mentioned above, especially regarding new adaptive distances. For the first task, this work introduces a new method that provides a solution to the local minima problem and uses a generalized distance applied to interval data, which is capable of modeling imbalanced classes and class subregions with different shapes and sizes. This algorithm is also capable of eliminating inactive prototypes and automatically selecting features. For the semi-supervised classification task, this work proposes a graph-based label propagation algorithm, which, in contrast to existing methods from literature, does not focus only on unlabeled instance classification, but on the prediction of proper class probabilities. This work also provides a performance analysis of the two proposed methods, comparing them to existing algorithms, in terms of classification error rate (first method) and proper scoring rules (second method), using real and synthetic datasets. Experiments show that both methods perform significantly better than the state of the art.