dc.contributor | Gonçalves, Alexandre Leopoldo | |
dc.contributor | Universidade Federal de Santa Catarina | |
dc.creator | Maciel, Daniel | |
dc.date | 2022-08-15T19:52:23Z | |
dc.date | 2022-08-15T19:52:23Z | |
dc.date | 2022-07-19 | |
dc.date.accessioned | 2023-09-02T11:07:03Z | |
dc.date.available | 2023-09-02T11:07:03Z | |
dc.identifier | https://repositorio.ufsc.br/handle/123456789/238267 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/8593355 | |
dc.description | TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação. | |
dc.description | No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras.
No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings
para palavras novas. | |
dc.format | application/pdf | |
dc.language | pt_BR | |
dc.publisher | Araranguá, SC | |
dc.rights | Open Access | |
dc.subject | Processamento de linguagem natural | |
dc.subject | Embeddings | |
dc.subject | Aprendizado profundo | |
dc.title | Um método para obtenção de representações de palavras novas por meio da técnica de Embedding | |
dc.type | TCCgrad | |