Dissertação
Arquitetura LSTM para classificação de discursos de ódio cross-lingual Inglês-PtBR
Registro en:
BISPO, Thiago Dias. Arquitetura LSTM para classificação de discursos de ódio cross-lingual Inglês-PtBR. 2018. 73 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.
Autor
Bispo, Thiago Dias
Institución
Resumen
One of the consequences of the popularization of Internet access is the spread of insults and
discriminatory messages, the so-called hatespeeches. They are comments that aim to discriminate
against someone or a group of people because they belong to a certain group, usually minority,
or have some characteristic common to other people. Fighting hates peech is a growing demand
in real and virtual life as it profoundly affects the dignity of its victims.
Detection of hatespeech is a difficult task because, in addition to natural language being inherently
ambiguous, it requires a certain level of understanding of its linguistic structure. In many
discourses, discrimination does not happen explicitly or with typical expressions: it is necessary
world knowledge to recognize them. In addition, sometimes it is necessary to understand the
context of the sentence to perceive its hateful content. Sarcasm is another huge challenge (even
for humans) since its presence requires knowledge of the community and potentially of the user
responsible for the comment for understanding their intent.
Several approaches have been proposed for the hatespeech recognition task . Many authors
consider the use of N-grams, of which those based on characters are more effective than those
based on words. Combined or not with N-grams, lexical features were also evaluated, such as the
presence or absence of negative words, classes or expressions indicative of insult, punctuation
marks, letter repetitions, the presence of emoji, etc. Linguistic features were inefficient when
used alone, such as POS tag, and the relationship between the terms of the dependency tree
resulting from the syntax analysis. Recently, the most successful approach has used a neural
network to create a distributed representation of the sentences present in a corpus of hatespeech,
indicating that word embeddings training is a promising path in the area of hatespeech.
Language drastically affects the tasks of Natural Language Processing (NLP), since most, if
not all, words differ from one language to another, as well as their syntax, morphology, and
linguistic construction. Thanks to this, works in English are not directly applicable in corpora
of Portuguese language. In addition, corpora in Portuguese for hatespeech are rare, making
researchers in the area to do all the construction work.
In this dissertation we studied the use of deep cross-lingual Long Short-Term Memory (LSTM)
model, trained with a hatespeech dataset translated from English in two different ways, preprocessed
and vectorized with several strategies that were represented in 24 scenarios. The main
approaches adopted included the training of embeddings through word index vectors (State of
the Art technique), TFIDF vectors, N-grams vectors, with or without GloVe vocabulary, tested
with the dataset constructed and labeled in this work and with another available in Portuguese.
The inverted process was also tried out: we translated our corpus into English and compared the
performance with its original version. With the embeddings resulting from the training process
in each scenario, we used a Gradient Boosting Decision Tree (GBDT) as a means of improving
classification. In fact, the results obtained with LSTM were improved in many scenarios.
We achieved accuracy of up to 70 % in the experiments using the model written with the corpus
in English and our dataset translated into this language. In others, traditional and successful
techniques such as TFIDF vectors associated with an LSTM have not proved sufficient. Two
important contributions of this work are: (i) proposal of an alternative research approach to attack
the problem based on the translation of corpora and (ii) provision of a dataset of hatespeech in
Portuguese to the community. Uma das consequências da popularização do acesso à Internet é a disseminação de insultos
e mensagens discriminatórias, os chamados discursos de ódio (do inglês, hatespeech). São
comentários que visam discriminar alguém ou um conjunto de pessoas por pertencerem a um
certo grupo, normalmente minoritário, ou por possuírem alguma característica também comum a
outras pessoas. O combate aos discursos de ódio é uma demanda crescente na vida real e virtual
pois eles afetam profundamente a dignidade de suas vítimas.
Detecção de discursos de ódio é uma tarefa difícil porque, além da linguagem natural ser
inerentemente ambígua, ela exige certo nível de compreensão de sua estrutura linguística. Em
muitos discursos, a discriminação não acontece de forma explícita ou com expressões típicas: é
preciso ter conhecimento de mundo para reconhecê-las. Além disso, algumas vezes é necessário
entender o contexto da frase para perceber seu teor odioso. O sarcasmo é outro desafio enorme (até
para humanos) uma vez que sua presença exige conhecimento da comunidade e potencialmente
do usuário responsável pelo comentário para o entendimento de sua intenção.
Diversas abordagens foram propostas para reconhecimento do hatespeech. Muitos autores
consideram N-Grams, dentre os quais aqueles baseados em caracteres mostram-se mais efetivos
que aqueles baseados em palavras. Combinadas ou não aos N-Grams, features léxicas também
foram estudadas, como a presença ou não de palavras negativas, classes ou expressões indicativas
de insulto, sinais de pontuação, repetições de letras, presença de emojis etc. Features linguísticas
mostraram-se ineficientes quando utilizadas isoladamente, como as POS tag, e a relação entre
os termos da árvore de dependência resultante da análise sintática. Recentemente, a abordagem
mais bem sucedida usou uma rede neural para criar uma representação distribuída das sentenças
presentes em um corpus de discursos de ódio, indicando que o treinamento de word embeddings
é um caminho promissor para a área.
A língua afeta drasticamente as tarefas de Processamento de Linguagem Natural (PLN), uma vez
que a maioria das palavras, se não todas, são diferentes de uma língua para outra, além de sua
sintaxe, morfologia e construções linguísticas. Por esta razão, os trabalhos em língua inglesa não
são diretamente aplicáveis em corpora de língua portuguesa, por exemplo. Além disso, corpora
em português para discursos de ódio são raros, fazendo com que pesquisadores da área precisem
realizar todo o trabalho de construção.
Nessa dissertação, foi estudado o uso de um modelo deep cross-lingual Long Short-Term Memory
(LSTM), treinado com um dataset de discursos de ódio traduzido do Inglês de duas diferentes
maneiras, pré-processado e vetorizado com variadas estratégias que foram representadas em 24
cenários. As principais abordagens adotadas consideraram: o treinamento de embeddings através
de vetores de índices de palavras (técnica Estado da Arte), vetores TFIDF, vetores N-Grams, com
ou sem vocabulário GloVe, testados com o dataset construído e rotulado neste trabalho e com
outro disponível em português. O processo invertido também foi experimentado: traduzimos
o nosso corpus para o inglês e comparamos o desempenho com sua versão original. Com os
embeddings resultantes do processo de treinamento em cada cenário, usamos uma Gradient
Boosting Decision Tree (GBDT) como forma de melhorar a classificação e, de fato, os resultados
obtidos com a LSTM foram melhorados em muitos cenários. Alcançamos precisão de até 70% nos experimentos usando o modelo treinado com o corpus
em Inglês e nosso dataset traduzido para esta língua. Em outros, técnicas tradicionais e bem
sucedidas como vetores TFIDF associados à uma LSTM não se mostraram suficientes. Duas
importantes contribuições deste trabalho são: (i) proposta de uma abordagem de pesquisa
alternativa de ataque ao problema baseada na tradução de corpora e a (ii) disponibilização de
um dataset de discursos de ódio em língua portuguesa para a comunidade. São Cristóvão, SE