Arquitetura LSTM para classificação de discursos de ódio cross-lingual Inglês-PtBR

Bispo, Thiago Dias

Dissertação

Registro en:

BISPO, Thiago Dias. Arquitetura LSTM para classificação de discursos de ódio cross-lingual Inglês-PtBR. 2018. 73 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.

http://ri.ufs.br/jspui/handle/riufs/10659

https://repositorioslatinoamericanos.uchile.cl/handle/2250/9086080

Autor

Bispo, Thiago Dias

Institución

Universidade Federal de Sergipe (Brasil)

Resumen

One of the consequences of the popularization of Internet access is the spread of insults and discriminatory messages, the so-called hatespeeches. They are comments that aim to discriminate against someone or a group of people because they belong to a certain group, usually minority, or have some characteristic common to other people. Fighting hates peech is a growing demand in real and virtual life as it profoundly affects the dignity of its victims. Detection of hatespeech is a difficult task because, in addition to natural language being inherently ambiguous, it requires a certain level of understanding of its linguistic structure. In many discourses, discrimination does not happen explicitly or with typical expressions: it is necessary world knowledge to recognize them. In addition, sometimes it is necessary to understand the context of the sentence to perceive its hateful content. Sarcasm is another huge challenge (even for humans) since its presence requires knowledge of the community and potentially of the user responsible for the comment for understanding their intent. Several approaches have been proposed for the hatespeech recognition task . Many authors consider the use of N-grams, of which those based on characters are more effective than those based on words. Combined or not with N-grams, lexical features were also evaluated, such as the presence or absence of negative words, classes or expressions indicative of insult, punctuation marks, letter repetitions, the presence of emoji, etc. Linguistic features were inefficient when used alone, such as POS tag, and the relationship between the terms of the dependency tree resulting from the syntax analysis. Recently, the most successful approach has used a neural network to create a distributed representation of the sentences present in a corpus of hatespeech, indicating that word embeddings training is a promising path in the area of hatespeech. Language drastically affects the tasks of Natural Language Processing (NLP), since most, if not all, words differ from one language to another, as well as their syntax, morphology, and linguistic construction. Thanks to this, works in English are not directly applicable in corpora of Portuguese language. In addition, corpora in Portuguese for hatespeech are rare, making researchers in the area to do all the construction work. In this dissertation we studied the use of deep cross-lingual Long Short-Term Memory (LSTM) model, trained with a hatespeech dataset translated from English in two different ways, preprocessed and vectorized with several strategies that were represented in 24 scenarios. The main approaches adopted included the training of embeddings through word index vectors (State of the Art technique), TFIDF vectors, N-grams vectors, with or without GloVe vocabulary, tested with the dataset constructed and labeled in this work and with another available in Portuguese. The inverted process was also tried out: we translated our corpus into English and compared the performance with its original version. With the embeddings resulting from the training process in each scenario, we used a Gradient Boosting Decision Tree (GBDT) as a means of improving classification. In fact, the results obtained with LSTM were improved in many scenarios. We achieved accuracy of up to 70 % in the experiments using the model written with the corpus in English and our dataset translated into this language. In others, traditional and successful techniques such as TFIDF vectors associated with an LSTM have not proved sufficient. Two important contributions of this work are: (i) proposal of an alternative research approach to attack the problem based on the translation of corpora and (ii) provision of a dataset of hatespeech in Portuguese to the community.

Uma das consequências da popularização do acesso à Internet é a disseminação de insultos e mensagens discriminatórias, os chamados discursos de ódio (do inglês, hatespeech). São comentários que visam discriminar alguém ou um conjunto de pessoas por pertencerem a um certo grupo, normalmente minoritário, ou por possuírem alguma característica também comum a outras pessoas. O combate aos discursos de ódio é uma demanda crescente na vida real e virtual pois eles afetam profundamente a dignidade de suas vítimas. Detecção de discursos de ódio é uma tarefa difícil porque, além da linguagem natural ser inerentemente ambígua, ela exige certo nível de compreensão de sua estrutura linguística. Em muitos discursos, a discriminação não acontece de forma explícita ou com expressões típicas: é preciso ter conhecimento de mundo para reconhecê-las. Além disso, algumas vezes é necessário entender o contexto da frase para perceber seu teor odioso. O sarcasmo é outro desafio enorme (até para humanos) uma vez que sua presença exige conhecimento da comunidade e potencialmente do usuário responsável pelo comentário para o entendimento de sua intenção. Diversas abordagens foram propostas para reconhecimento do hatespeech. Muitos autores consideram N-Grams, dentre os quais aqueles baseados em caracteres mostram-se mais efetivos que aqueles baseados em palavras. Combinadas ou não aos N-Grams, features léxicas também foram estudadas, como a presença ou não de palavras negativas, classes ou expressões indicativas de insulto, sinais de pontuação, repetições de letras, presença de emojis etc. Features linguísticas mostraram-se ineficientes quando utilizadas isoladamente, como as POS tag, e a relação entre os termos da árvore de dependência resultante da análise sintática. Recentemente, a abordagem mais bem sucedida usou uma rede neural para criar uma representação distribuída das sentenças presentes em um corpus de discursos de ódio, indicando que o treinamento de word embeddings é um caminho promissor para a área. A língua afeta drasticamente as tarefas de Processamento de Linguagem Natural (PLN), uma vez que a maioria das palavras, se não todas, são diferentes de uma língua para outra, além de sua sintaxe, morfologia e construções linguísticas. Por esta razão, os trabalhos em língua inglesa não são diretamente aplicáveis em corpora de língua portuguesa, por exemplo. Além disso, corpora em português para discursos de ódio são raros, fazendo com que pesquisadores da área precisem realizar todo o trabalho de construção. Nessa dissertação, foi estudado o uso de um modelo deep cross-lingual Long Short-Term Memory (LSTM), treinado com um dataset de discursos de ódio traduzido do Inglês de duas diferentes maneiras, pré-processado e vetorizado com variadas estratégias que foram representadas em 24 cenários. As principais abordagens adotadas consideraram: o treinamento de embeddings através de vetores de índices de palavras (técnica Estado da Arte), vetores TFIDF, vetores N-Grams, com ou sem vocabulário GloVe, testados com o dataset construído e rotulado neste trabalho e com outro disponível em português. O processo invertido também foi experimentado: traduzimos o nosso corpus para o inglês e comparamos o desempenho com sua versão original. Com os embeddings resultantes do processo de treinamento em cada cenário, usamos uma Gradient Boosting Decision Tree (GBDT) como forma de melhorar a classificação e, de fato, os resultados obtidos com a LSTM foram melhorados em muitos cenários. Alcançamos precisão de até 70% nos experimentos usando o modelo treinado com o corpus em Inglês e nosso dataset traduzido para esta língua. Em outros, técnicas tradicionais e bem sucedidas como vetores TFIDF associados à uma LSTM não se mostraram suficientes. Duas importantes contribuições deste trabalho são: (i) proposta de uma abordagem de pesquisa alternativa de ataque ao problema baseada na tradução de corpora e a (ii) disponibilização de um dataset de discursos de ódio em língua portuguesa para a comunidade.

São Cristóvão, SE

Materias

Processamento de linguagem natural

Redes neurais

Memória de longo prazo

Redes sociais

Discursos de ódio

Aprendizagem profunda

LSTM

Hatespeech

Social networks

Deep learning

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Mostrar el registro completo del ítem