Tesis
BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set
Fecha
2022-09-12Registro en:
JOAQUIM, Carlos Eduardo de Lima. BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set. 2022. xvi, 68 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2022.
Autor
Joaquim, Carlos Eduardo de Lima
Institución
Resumen
O considerável aumento na velocidade de produção documental e, consequentemente, no
volume de dados não estruturados armazenados nas instalações do Exército Brasileiro,
especificamente na forma de documentos administrativos, acrescido da necessidade de
consciência situacional por parte dos Comandos, além da observação da legislação arquivística vigente, impõe a execução de processos capazes de classificar documentos.
Neste diapasão, o Processamento de Linguagem Natural (NLP) surge como um importante recurso na persecução dos objetivos relativos à classificação documental, mostrandose meio adequado para o desenvolvimento de pesquisa que vise à classificação de documentos considerando a realidade da produção documental atual, onde sobeja considerável
número de amostras documentais não rotuladas.
Observado o fato de que os mais poderosos modelos NLP desenvolvidos baseiam-se em
técnicas de aprendizado supervisionado, as quais exigem considerável número de amostras
rotuladas, resta o desafio de encontrar modelo capaz de classificar conjunto de dados
de uma Organização Militar (OM), parcialmente rotulado, de acordo com o Modelo de
Requisitos para Sistemas Informatizados de Gestão Arquivística de Documentos (e-ARQ
Brasil), alcançando performance equivalente ao nível humano.
Objetivou-se desenvolver, durante a condução da presente pesquisa, a expansão do
modelo BERT, com a substituição do estágio supervisionado de ajuste fino por um método de autoaprendizagem, realizando-se a mensuração da performance resultante para
porcentagens específicas do conjunto de dados, inicialmente compreendidas entre 3% e
30% do total de amostras rotuladas.
Os resultados obtidos permitiram vislumbrar a aplicabilidade do método proposto nas
bases de dados de documentos do Exército Brasileiro. Concomitantemente, no estudo de
caso em tela, foi possível verificar performance compatível com as necessidades existentes,
sendo o método proposto capaz de classificar de forma equivalente à capacidade humana,
apresentando melhores resultados que os experimento de referência, com ganhos maiores
à medida em que o número de amostras rotuladas disponíveis decresce.