Tesis
Explorando o uso de análise estática e aprendizagem supervisionada de máquina para a identificação de códigos maliciosos em arquivos executáveis do sistema operacional Microsoft Windows
Fecha
2021-05-01Registro en:
RIBEIRO, Alexandre José. Explorando o uso de análise estática e aprendizagem supervisionada de máquina para a identificação de códigos maliciosos em arquivos executáveis do sistema operacional Microsoft Windows. 2020. xvi, 131 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2020.
Autor
Ribeiro, Alexandre José
Institución
Resumen
Malware tornou-se uma grande ameaça para governos, empresas e indivíduos. A forma clássica
para a detecção de malwares é pela utilização de softwares como antivírus. No entanto, os
produtos que oferecem esse tipo de contramedida estão se tornando cada vez mais ineficazes,
devido ao surgimento de técnicas de evasão, tais como o polimorfismo, o que permite que
centenas de milhares de exemplares surjam todos os dias. Para lidar com essa ameaça, métodos
de aprendizado de máquina (ML) têm sido reportados como ferramentas promissoras na detecção
de malware. Neste contexto, o presente trabalho explora técnicas de aprendizado supervisionado
de máquina de maneira a produzir uma generalização prática de um preditor para aplicação em
um determinado sistema de detecção de malware. Para tanto, utiliza atributos extraídos de
arquivos executáveis do ambiente Microsoft Windows, também chamados de Portable Executable
(PE), através da aplicação de ferramentas de análise estática, de código aberto, desenvolvidas na
linguagem Python, e procedimentos relacionados à seleção de amostras, a coleta e tratamento
dos dados coletados de repositórios disponíveis na Internet de aplicativos do sistema
operacional Microsoft Windows. Dos algoritmos que compuseram os experimentos, o Random
Forest, KNN e SVC apresentaram o melhor desempenho dentre aqueles utilizados. Como
resultados, os experimentos atingiram uma precisão acima de 94% durante o treinamento dos
modelos. Como contribuição, o trabalho proposto fornece uma evidência empírica da viabilidade
da proposta, baseada nos experimentos realizados, cujos resultados foram embarcados em um
protótipo de aplicação para a classificação entre arquivos maliciosos e benignos.
Adicionalmente, oferece à comunidade científica, um conjunto de recursos extraídos de mais
de14.000 arquivos executáveis, entre arquivos maliciosos e benignos, como suporte para outros
experimentos.