masterThesis
Additive margin softmax e funções sinc para reconhecimento de locutor
Registro en:
NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
Autor
NUNES, João Antônio Chagas
Institución
Resumen
Reconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo. CNPq Speaker Recognition is a challenging task with essential applications such as authentication, automation, and security. SincNet is a new deep learning based model which has produced promising results to tackle the mentioned task. To train deep learning systems, the activation function on the final layer is essential to the network performance. The Softmax activation function is a widely used function in deep learning methods, but it is not the best choice for all kind of problems. For distance-based problems, one new Softmax based activation function called Additive Margin Softmax (AM-Softmax) is proving to be a better choice than the traditional Softmax. The AM-Softmax introduces a margin of separation between the classes that forces the samples from the same class to be closer to each other and also maximizes the distance between classes. In this paper, we proposed several deep learning models to tackle the speaker recognition problem. In addition, it was made several experiments to analyse the influence of the AM-Softmax function and the Sinc layer on the speaker recognition problem. Among the proposed models, the AM-SincNet and the AM-MobileNet1D had promissing results. The proposed AMSincNet model is based on the SincNet but uses an improved AM-Softmax layer, it had shown a classification error about 55% smaller than the tradicional SincNet model on the datasets TIMIT and MIT. On the other hand, the AM-MobileNet1D is an adapted version of MobileNet V2 built to deal with audio signals, it had shown results up to 7 times faster than the SincNet, while keeping low error rates.