masterThesis
Aplicando Ensemble para classificação de textos curtos em português do Brasil
Registro en:
NASCIMENTO, Paulo de Assis. Aplicando Ensemble para classificação de textos curtos em português do Brasil. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
Autor
NASCIMENTO, Paulo de Assis
Institución
Resumen
A popularização da internet no Brasil e o vasto uso das redes sociais permitem às pessoas a ter voz ativa onde suas opiniões não estão mais restritas a ambientes familiares. O constante uso da internet desencadeia a criação de conteúdos diversos e muito valiosos para negócios e tomadas de decisão. Estima-se que no Brasil haverá 99,4 milhões de usuários acessando a internet até o final do ano 2019. O conteúdo lançado na web desperta o interesse das empresas que desejam melhorar seus produtos e serviços. Reunir esses dados, processá-los e transformá-los em informação útil, é essencial para mapear os perfis de consumo dos usuários na web. Para isso, é necessário lançar mão de recursos automáticos de processamento de textos. O processamento automático desse tipo de informação está ligado à atividade de Análise de Sentimentos (AS), que trata do processamento automático de textos opinativos na web classificando-os em sentimentos. A aplicação dessa técnica em português do Brasil ainda é bastante modesta. Neste sentido, este trabalho explora a aplicação da técnica de ensemble para classificar textos curtos em português do Brasil, sobre o problema de múltiplas classes, utilizando a abordagem de Aprendizagem de Máquina (AM). Ensembles, em Aprendizagem de Máquina, são utilizados quando se deseja unir em um comitê os pontos fortes de cada algoritmo. Dessa forma eles atuam como algoritmos complementares para atingir melhores resultados em relação às suas capacidades de forma isolada. Para tal, sete classificadores clássicos de Aprendizagem de Máquina (AM) foram selecionados. Para os experimentos, os corpora 2000-tweets-BR e o TweetSentBR disponíveis na literatura recente foram utilizados, ambos contém três classes. Nos experimentos, os classificadores foram treinados e testados de forma isolada a fim de obter seus resultados médios em acurácia, F-Measure, Brier Score e tempo de execução por meio da técnica de validação cruzada para posterior comparação com os ensembles. O teste de Shapiro-Wilk foi utilizado sobre os dados a fim de verificar a normalidade, e assim decidir o tipo de teste de hipótese a ser aplicado. Todos os classificadores isolados foram combinados entre si formando oito ensembles dos quais uma combinação foi baseada na métrica Brier Score. Os testes com algoritmos clássicos obtiveram os resultados médios de 71% de acurácia, 46% F-Measure, e 93 segundos de tempo de execução sobre o córpus TweetSentBR. E sobre o córpus 2000-tweets-BR foram obtidos 68% de acurácia, 57% de F-Measure e 0,430 segundos de tempo de execução. Os resultados obtidos em valores médios nos testes combinando classificadores em ensemble juntamente com o voto majoritário foram de 71% de acurácia, 50% de F-Measure, e 189 segundos em tempo de execução sobre o corpus TweetSentBR. Sobre o córpus 2000-tweets-BR os resultados médios obtidos foram de 69% de acurácia, 52% F-Measure e 163 segundos de tempo de execução. The popularization of the Internet in Brazil and the widespread use of social media enable people to have an active voice where their opinions are no longer restricted to familiar environments. The constant use of the Internet triggers the creation of diverse and very valuable content for business and decision making. It is estimated that in Brazil there will be 99.4 million users accessing the internet by the end of the year 2019. Content launched on the web arouses the interest of companies that wish to improve their products and services. Gathering this data, processing it and turning it into useful information, is essential for mapping user consumption profiles on the web. This requires the use of automatic word processing features. The automatic processing of this type of information is linked to the Sentiment Analysis activity, which deals with the automatic processing of opinion texts on the web by classifying them in feelings. The application of this technique in Brazilian Portuguese is still quite modest. In this sense, this work explores the application of the ensemble technique to classify short texts in Brazilian Portuguese, on the problem of multiclass classification, using the Machine Learning approach. Ensembles, in Machine Learning, are used when you want to combine the strengths of each algorithm. Thus they act as complementary algorithms to achieve better results in relation to their capacities in isolation. For this purpose, seven classic Machine Learning classifiers were selected. For the experiments, the corpora 2000-tweets-BR and TweetSentBR available in recent literature were used, both containing three classes. In the experiments, all classifiers were trained and tested in isolation to obtain their average results in accuracy, F-Measure, Brier Score and execution time through the cross validation technique for later comparison with the ensembles. The Shapiro-Wilk test was used on the data to verify their normality, and thus to decide the type of hypothesis test to be applied. All isolated classifiers were combined to form eight ensembles of which one combination was based on the Brier Score metric. The tests with classical algorithms obtained the average results of 71% accuracy, 46% F-Measure, and 93 seconds of runtime over the TweetSentBR corpus. And on the 2000-tweets-BR corpus, 68% accuracy, 57% F-Measure and 0.430 seconds runtime were obtained. The results obtained in average values in the tests combining ensemble classifiers together with the majority vote were 71% accuracy, 50% F-Measure, and 189 seconds at run time on the TweetSentBR corpus. Regarding the 2000-tweets-BR corpus, the average results obtained were 69% accuracy, 52% F-Measure and 163 seconds of execution time.