Documento avaliado pelos pares
Detectando linguagem ofensiva em tweets utilizando modelos Transformer
Autor
Marcos Aurélio Hermógenes Boriola; Universidade Tecnológica Federal do Paraná, Toledo, Paraná, Brasil
Gustavo Henrique Paetzold; Universidade Tecnológica Federal do Paraná, Toledo, Paraná, Brasil
Resumen
Devido a facilidade de uso e grande número de acessos em plataformas de redes sociais é cada vez mais comum a presença de publicações que contenham algum tipo ataque, ameaça, ódio, palavras de baixo calão e afins, estes tipos de publicações são exemplos de textos com linguagem ofensiva. No intuito de controlar este tipo de conteúdo, sistemas de classificação são criados para detectar automaticamente linguagem ofensiva em textos e, no caso deste trabalho em específico, um sistema de classificação foi desenvolvido a partir de modelos baseados em Transformer. Os modelos foram refinados a partir de conjuntos de dados contendo tweets na língua inglesa rotulados como ofensivos (OFF) ou não ofensivos (NOT) e para avaliar o desempenho obtido as métricas Macro F1-score, Precisão e Revocação foram utilizadas. No total foram 11 modelos analisados onde o modelo de melhor performance superou os resultados obtidos pelo estado da arte na tarefa compartilhada OffensEval 2020.