Trabalho de conclusão de graduação
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter
Autor
Almeida, Thais Luca Marques de
Institución
Resumen
O Twitter é uma plataforma de serviço de microblogging que tem chamado a atenção de diversos pesquisadores graças ao grande volume de dados que são gerados diariamente. Nesta plataforma, usuários enviam e recebem mensagens, chamadas tweets, de até 280 caracteres em tempo real. Por causa da sua popularização e do aumento da violência no estado do Rio de Janeiro, muitos usuários utilizam o serviço para relatar assaltos, em uma forma de tentar proteger uns aos outros. Neste trabalho, o objetivo é criar um sistema que fornece um mapeamento dos bairros do Rio de Janeiro com o maior número de denúncias de assalto segundo informações coletadas do Twitter. Para selecionar os tweets que contêm informações de assaltos, são utilizados filtros de busca por palavras-chave e outros que garantem que os textos foram postados na cidade ou em locais próximos. Após a coleta dos dados, foram aplicadas técnicas de processamento de linguagem natural para melhorar a qualidade dos mesmos. Além disso, foram investigados métodos de aprendizados para treinar classificadores que identifiquem se um tweet relata ou não um assalto. Como todos os métodos a serem testados utilizam regressão, foi necessário representar esses dados numericamente e a forma de representação escolhida foi a Ponderação TF-IDF. Durante o experimento, foi investigado o desempenho de três métodos, a partir de uma base anotada utilizada para treinamento e validação, são eles: SVM, Naive Bayes e Redes Neurais Artificiais.