Experiências com variações prequential para avaliação da aprendizagem em fluxo de dados

HIDALGO, Juan Isidro González

masterThesis

Registro en:

https://repositorio.ufpe.br/handle/123456789/26725

http://repositorioslatinoamericanos.uchile.cl/handle/2250/3990236

Autor

HIDALGO, Juan Isidro González

Institución

Universidade Federal de Pernambuco (Brasil)

Resumen

Fluxo de dados (Data Stream) é uma sequência ordenada de instâncias que chegam a uma velocidade que não permite que sejam armazenadas permanentemente na memória. Tais dados são potencialmente ilimitados no tamanho, tornando-os impossíveis de serem processados pela maioria das abordagens tradicionais de mineração de dados. Estes acontecimentos impõem novas exigências aos algoritmos de aprendizagem devido às especificidades dos ambientes dinâmicos. A maioria deles aprende modelos de decisão que evoluem continuamente ao longo do tempo, tornando evidente que a não estacionaridade dificulta o processo de aprendizagem, onde ocorrem mudanças na distribuição de probabilidade dos dados – Mudança de Conceito (Concept Drift). Uma questão importante, ainda não convenientemente abordada, é o projeto de trabalho experimental para avaliar e comparar modelos de decisão que evoluem ao longo do tempo. A metodologia Prequential é uma abordagem utilizada para a avaliação de desempenho de classificadores em fluxos de dados com distribuições estacionárias e não estacionárias. Ela é baseada na premissa de que o objetivo da inferência estatística é fazer previsões de probabilidade sequencial para observações futuras, em vez de expressar informações sobre a acurácia passada alcançada. Este trabalho realiza uma avaliação empírica da metodologia abordada considerando as três estratégias utilizadas para atualizar o modelo de predição, a saber Basic Window (Janela Básica), Sliding Window (Janela Deslizante), e Fading Factors (Fator de Desvanecimento). Especificamente, procura-se identificar qual das variações é a mais adequada para a avaliação experimental dos resultados em cenários onde acontecem mudanças de conceitos, com maior interesse nas observações passadas dentro do fluxo total de dados. As métricas adotadas para a avaliação são acurácia Prequential dos enfoques e a acurácia real obtida no processo de aprendizagem de cada fluxo de dados. Os resultados dos experimentos realizados sugerem que a utilização de Prequential na variação Sliding Window seja a melhor alternativa.

CAPES

A data stream is an ordered sequence of instances that arrive at a rate that does not allow them to be permanently stored in memory. Such data are potentially unlimited in size, rendering it impossible to be processed by most traditional data mining approaches. These events require new requirements of the learning algorithms due to the specifics of dynamic environments. Most of them learn decision models that evolve continuously over time, making it evident that non-stationarity hinders the learning process, where changes occur in the distribution of probability of the data (Concept Drift). An important issue, not yet adequately addressed, is the experimental work project to evaluate and compare decision models that evolve over time. The Prequential methodology is an approach used to evaluate the performance of classifiers in data streams with stationary and non-stationary distributions. It is based on the premise that the goal of statistical inference is to make sequential probability forecasts for future observations, instead of expressing information about the past predictions accuracy. This work makes an empirical evaluation of the methodology, considering the three strategies used to update the prediction model, namely Basic Window, Sliding Window, and Fading Factors. Specifically, it seeks to identify which of the variations is most appropriate for the experimental evaluation of the results in scenarios where concept drifts occur, with greater interest in the accuracy observed within the total data flow. The metrics adopted for the evaluation are Prequential accuracy of the approaches and the actual accuracy obtained in the learning process of each data stream. The results of the carried out experiments suggest that the use of Prequential in the variation Sliding Window is the best alternative.

Materias

Ciência da computação

Fluxo de dados

Mostrar el registro completo del ítem