doctoralThesis
Otimização multi-objetivo para classificação de tráfego de redes
Autor
NASCIMENTO, Zuleika Tenório Cavalcanti do
Institución
Resumen
A Internet cresce em ritmo acelerado, tanto em volume de tráfego quanto em número de aplicações. Por esta razão, com o intuito de monitorar tais dados, que não somente crescem em volume, mas também em complexidade, esforços na tarefa de classificação de tráfego de redes têm crescido nos últimos anos com o intuito de prover ferramentas capazes que auxiliar na análise de tráfegos de redes com diversos propósitos, tais como, por exemplo, oferecer maior segurança da informação e/ou Qualidade de Serviço (QoS). Muitos métodos de classificação têm sido propostos baseados em inspeção profunda de pacotes (DPI - Deep Packet Inspection), porém tais métodos não possibilitam a análise de tráfego criptografado, além de possuir alto custo computacional e violar a privacidade dos usuários ao inspecionar a carga útil (payload) dos pacotes. O método de classificação baseado em portas não é capaz de lidar com aplicações que utilizam portas aleatórias ou encapsulam tráfego. No entanto, a classificação de tráfego com o auxílio de algoritmos de aprendizagem de máquina está em evidência, apresentando resultados promissores, e sendo capazes de mitigar tais problemas apresentados. Este trabalho tem como objetivo propor um modelo híbrido para classificação de tráfego de redes, denominado Modelo Dividir para Conquistar Multi-Objetivo (MODC - Multi-Objective Divide and Conquer), com o auxílio de algoritmos de aprendizagem de máquina, baseado na estratégia de “dividir para conquistar”, mostrando que esta metodologia melhora consideravelmente os resultados para as métricas de desempenho investigadas. Além disso, propõe otimizar duas importantes métricas para monitoramento de tráfego simultaneamente: a acurácia global em fluxos e a acurácia global em bytes, através do uso de Algoritmos Genéticos Multi-Objetivos (MOGA - Multi-Objective Genetic Algorithms), permitindo que administradores de rede possam ajustar o modelo para priorizar a qualidade de classificação para uma destas métricas, de acordo com particularidades da rede sendo monitorada. Algoritmos tais como o de Máquina de Aprendizagem Extrema (ELM - Extreme Learning Machine) e Mapas Auto-Organizáveis com Crescimento Hierárquico (GHSOM - The Growing Hierarchical Self-Organizing Map) são utilizados na estratégia de “dividir para conquistar”. Os resultados mostraram que a estratégia de dividir um problema complexo em tarefas mais simples e conquistá-los com algoritmos de aprendizagem supervisionada melhorou o desempenho do modelo, e que a utilização do MOGA foi capaz de otimizar simultaneamente duas métricas de desempenho, permitindo a flexibilização do modelo proposto, de acordo com as necessidades da rede sendo monitorada. Além disso, foi apresentada uma variação do modelo com o uso dos Stacked Sparse Autoencoders (SSAE), técnica esta da área de Aprendizagem Profunda (deep learning) que procura gerar uma melhor representação em alto nível do conjunto de dados de entrada, reduzindo sua dimensionalidade e custo computacional. Foi apresentado que os SSAE melhoraram consideravelmente a qualidade do modelo. Experimentos também foram realizados com o MODC com o intuito de realizar comparações com ferramentas de DPI conhecidas, inclusive comerciais, e com um conjunto de algoritmos de aprendizagem de máquina, onde o modelo híbrido proposto mostrou ser superior, para as métricas de desempenho analisadas, quando comparado utilizando conjuntos de dados distintos. The Internet is exponentially growing, both in traffic volume and number of applications. For that reason, with the objective of monitoring such data, which not only grows in volume but also in complexity, efforts have been made in the area of network traffic classification in recent years with the objective of providing tools capable of aiding the network data analysis with multiple objectives, such as, for example, providing information security and Quality of Service (QoS). Many methods of classification have been proposed based on Deep Packet Inspection (DPI), but these methods break when dealing with encrypted traffic data and when multiple signatures match. Some methods are based on the use of known ports, but these are not able to deal with encapsulated traffic or theuse of random ports by applications. Others make use of machine learning to tackle these problems, showing to be a promising area for network traffic classification. This work proposes a hybrid model for network traffic classification, named Multi-Objective Divide and Conquer (MODC,) with the aid of machine learning algorithms, based on the “divide and conquer” strategy. This approach showed to improve the performance metrics investigated. Besides that, this method proposes to optimize, simultaneously, two important metrics for network monitoring, the global flow accuracy and global byte accuracy, by using Multi-Objective Genetic Algorithms (MOGA), allowing computer network administrators to adjust the model in order to prioritize the classification quality in terms of flow or byte accuracy, depending on the network’s particularities. Also, the “divide and conquer” strategy used machine learning algorithms such as the Extreme Learning Machine (ELM) and The Growing Hierarchical Self-Organizing Map (GHSOM). The obtained results showed that the strategy of dividing a complex problem into smaller and simpler problems, and conquering them with supervised learning algorithms, enhanced the model’s overall quality, and that by using the MOGA, it was possible to improve the model by simultaneously optimizing two performance measures, transforming the model into a flexible classifier to make it possible for network analysts to prioritize either flow or byte accuracy, based on the network’s necessity. Besides that, it was presented an extension for the model with the aid of the Stacked Sparse Autoencoders (SSAE), from the deep learning area of research, that aims to generate a high level set of features, reducing the dataset dimensionality and computational costs. It was presented that the use of SSAE improved the model considerably. Experiments were also performed with the MODC in order to compare it against known DPI tools, including commercial ones, and with a set of machine learning algorithms, where the model showed to be superior, regarding the analyzed performance metrics, to these other methods by using distinct datasets.