Automatic classification of documents based on text mining and natural language processing in the context of the Tribunal de Contas do Estado do Rio Grande do Norte

dc.contributorXavier Júnior, João Carlos
dc.contributorhttp://lattes.cnpq.br/7922298079989261
dc.contributorhttp://lattes.cnpq.br/5088238300241110
dc.contributorCanuto, Anne Magaly de Paula
dc.contributorhttp://lattes.cnpq.br/1357887401899097
dc.contributorSantos, Ilueny Constâncio Chaves dos
dc.contributorhttp://lattes.cnpq.br/8930351118408164
dc.creatorPorto, Diego Rolim
dc.date2022-07-05T17:41:07Z
dc.date2022-07-05T17:41:07Z
dc.date2022-06-15
dc.identifierPORTO, Diego Rolim. Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural. 2022. 14 f. Trabalho de Conclusão de Curso (Residência em Tecnologia da Informação) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.
dc.identifierhttps://repositorio.ufrn.br/handle/123456789/48335
dc.descriptionThe manual classification of documents represents, in most cases, a slow and demanding process since it is based on reading part of the documents. Based on this fact, the main objective of this work is to carry out a study of different Text Mining and Natural Language Processing (NLP) techniques for the automatic classification of documents related to the accountability of the city councils of the Rio Grande do Norte State. In this sense, we have chosen two methods found in the literature, as being: TF-IDF and Doc2Vec, because they have distinctive characteristics. In this context, it is important to analyze the performance of both methods, as well as the complexity in the construction of dictionaries to be used in the first, and the necessary training stage for the second. For this end, two sets of documents were created, one for training or creating dictionaries, and another for testing both methods. In this sense, the experimental results showed that the methodology based on Doc2Vec is more indicated to be used by the State's Court of Auditors. This result is justified by the accuracy of 100% obtained in the performed tests and due to better scalability of the implementations used in the method.
dc.descriptionTribunal de Contas do Estado do Rio Grande do Norte
dc.descriptionA classificação manual de documentos representa, na maioria dos casos, um processo lento e custoso, visto que tal processo está baseado na leitura de parte dos documentos. Assim, este trabalho tem como objetivo a realização de um estudo de diferentes técnicas de Mineração de Texto e Processamento de Linguagem Natural (PLN) para a classificação automática de documentos relacionados à prestação de contas dos municípios do Estado do Rio Grande do Norte. Dessa forma, dentre os métodos encontrados na literatura, escolheu-se o TF-IDF e o Doc2Vec, principalmente por apresentarem características distintas. Nesse contexto, é importante analisar o desempenho de ambos os métodos, assim como a complexidade da construção de dicionários para o primeiro e a etapa de treinamento necessária para o segundo. Para esse fim, foram criados dois conjuntos de documentos, sendo um para treinamento ou criação dos dicionários, e outro para o teste de ambos os métodos. Nesse sentido, os resultados experimentais demonstraram que a metodologia baseada em Doc2Vec é mais indicada para a aplicação no Tribunal de Contas do Estado do Rio Grande do Norte. Este resultado é justificado baseando-se na acurácia de 100\% obtida nos testes realizados e em uma melhor escalabilidade das implementações utilizadas no método.
dc.formatapplication/pdf
dc.languagept_BR
dc.publisherUniversidade Federal do Rio Grande do Norte
dc.publisherBrasil
dc.publisherUFRN
dc.publisherPrograma de Pós-Graduação em Tecnologia da Informação
dc.publisherInstituto Metrópole Digital
dc.rightsAttribution 3.0 Brazil
dc.rightshttp://creativecommons.org/licenses/by/3.0/br/
dc.rightsLOCKSS system has permission to collect, preserve, and serve this Archival Unit
dc.subjectMineração de texto
dc.subjectProcessamento de linguagem natural
dc.subjectTF-IDF
dc.subjectDoc2Vec
dc.titleClassificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
dc.titleAutomatic classification of documents based on text mining and natural language processing in the context of the Tribunal de Contas do Estado do Rio Grande do Norte
dc.typemasterThesis


Este ítem pertenece a la siguiente institución