info:eu-repo/semantics/article
MDLText applied to automatic filtering of SPIM and SMS Spam
MDLText aplicado na Filtragem Automática de SPIM e SMS Spam
Autor
Silva, Renato Moraes
Almeida, Tiago A.
Yamakami, Akebo
Resumen
Spam filtering in online instant messages and SMS is a challenging problem nowadays. It is because the messages are often very short and rife with slangs, idioms, symbols, emoticons, and abbreviations which hamper predicting and knowledge discovering. In order to face this problem, we evaluated a simple, fast, scalable, multiclass, and online text classification method based on the minimum description length principle. We conducted experiments using a real and public dataset, which demonstrate that our method is effective on instant messaging and SMS spam filtering in both online and offline learning contexts. A filtragem automática de spam em mensagens instantâneas e SMS é um problema desafiador, pois as mensagens são frequentemente curtas e repletas de ruídos, tais como gírias, expressões idiomáticas, símbolos, emoticons e abreviações, o que dificulta a extração de conhecimento e predição. Para enfrentar esse problema, neste artigo é avaliado um método de classificação de texto baseado no princípio da descrição mais simples, que é eficiente, rápido, escalável, multiclasse e possui aprendizado incremental. Experimentos realizados com uma base de dados real e pública, em cenários de aprendizado online e offline, indicam que o método proposto é promissor para a tarefa de detecção de spam em mensagens instantâneas e SMS.