info:eu-repo/semantics/article
CluWords: Explorando Clusters Semânticos entre Palavras para Aprimorar Modelagem de Tópicos
Autor
Gomes, Christian Reis Fagundes
Viegas, Felipe Augusto Resende
Cunha, Washington Luiz Miranda da
Rocha, Leonardo Chaves Dutra da
Resumen
Neste trabalho avançamos o estado-da-arte na modelagem de tópicos por meio de uma nova representação de documentos baseada em word embeddings pré-treinados para fatoração de matriz não-probabilística. Nossa estratégia, chamada CluWords, explora as palavras mais próximas em um determinado espaço word embedding pré-treinado para gerar meta-palavras que são capazes de melhorar a representação de documentos, tanto em termos de informações sintáticas quanto semânticas. Em nossa avaliação, considerando 12 bases de dados e 8 linhas de base, obtivemos melhoras na maioria dos casos, com ganhos de mais de 50%. Nosso método também é capaz de melhorar representação dos documentos para a tarefa de classificação automática.