Trabalho de conclusão de graduação
Mineração de dados aplicada à identificação de notícias falsas
Autor
Moraes, Marcos Paulo
Institución
Resumen
Notícias falsas existem há muito tempo. Porém, com o avanço das mídias sociais e do acesso à internet, elas se tornaram um problema maior. Devido à rápida disseminação em mídias sociais e aplicativos de mensagens instantâneas, notícias falsas podem alcançar mais pessoas em menos tempo e influenciar diretamente os processos democráticos, criar ou expandir crises sociais, alavancando problemas de segurança que às vezes levam a fins trágicos. Com o intuito de gerar um método rápido e automatizado de identificação de notícias falsas, este estudo realizou uma análise dessas notícias, escritas em português, a partir de um corpus e outras fontes de dados verificadas. A partir da linguagem de programação Python, com a utilização de bibliotecas conhecidas para processamento de linguagem natural e aprendizado de máquina, como scikit-learn, NLTK e spaCy; e fazendo uso de algoritmos como Multinomial Naive Bayes e AdaBoost para classificação de notícias; em conjunto com as ferramentas para indexação, visualização e análise de dados Elasticsearch e Kibana; foi possível verificar diferenças entre os padrões de escrita de notícias falsas e verdadeiras, criando um classificador de tais notícias. Validamos estudos anteriores e adicionamos novas variáveis para ajudar na identificação de notícias falsas.