Tesis
SPAM = do surgimento à extinção
SPAM : from the rise to the extinction
Registro en:
Autor
Almeida, Tiago Agostinho de
Institución
Resumen
Orientador: Akedo Yamakami Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação Resumo: Nos últimos anos, spams têm se tornado um importante problema com enorme impacto na sociedade. A filtragem automática de tais mensagens impõem um desafio especial em categorização de textos, no qual a característica mais marcante é que os filtros enfrentam um adversário ativo, que constantemente procura evadir as técnicas de filtragem. Esta tese apresenta um estudo abrangente sobre o problema do spamming. Dentre as contribuições oferecidas, destacam-se: o levantamento histórico e estatístico do fenômeno do spamming e as suas consequências, o estudo sobre a legalidade do spam e os recursos jurídicos adotados por alguns países, a análise de medidas de desempenho utilizadas na avaliação dos filtros de spams, o estudo dos métodos mais empregados para realizar a filtragem de spams, a proposta de melhorias dos filtros Bayesianos através da adoção de técnicas de redução de dimensionalidade e, principalmente, a proposta de um novo método de classificação baseado no princípio da descrição mais simples auxiliado por fatores de confidência. Vários experimentos são apresentados e os resultados indicam que a técnica proposta 'e superior aos melhores filtros anti-spams presentes tanto comercialmente quanto na literatura. Abstract: Spam has become an increasingly important problem with a big economic impact in society. Spam filtering poses a special problem in text categorization, in which the defining characteristic is that filters face an active adversary, which constantly attempts to evade filtering. In this thesis, we present a comprehensive study of the spamming problem. Among many offered contributions we present: the statistical and historical survey of spamming and its consequences, a study regarding the legality of spams and the main juridic methods adopted by some countries, the study and proposal of new performance measures used for the evaluation of the spam classifiers, the proposals for improving the accuracy of Naive Bayes filters by using dimensionality reduction techniques and a novel approach to spam filtering based on the minimum description length principle and confidence factors. Furthermore, we have conducted an empirical experiments which indicate that the proposed classifier outperforms the state-of-the-art spam filters. Doutorado Automação Doutor em Engenharia Eletrica