Tesis
Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
Fecha
2021-09-09Registro en:
33004099080P0
Autor
Vieira Filho, Jozue [UNESP]
Universidade Estadual Paulista (Unesp)
Institución
Resumen
Este trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC. This work presents a methodology for speaker identification based on the insertion of a new audio attribute, called Maximum Mean Wavelet Leaders (MMWL), extracted and concatenated with Mel-Frequency Cepstrum Coefficients (MFCC) in machine learning models. Feature extraction from speech signals is crucial for speaker recognition, both for identification and verification. Regardless of the application, a speaker identification system must be able to gather, distinguish and classify features extracted from speech signals with a high accuracy rate. Therefore, the main objective of this work is to propose a methodology using reliable attributes of speech signals for identification. The basis of the work is the extraction of MMWL attributes associated to a machine learning process. The results indicate that the insertion of MMWL highlights multifractal features of speech signals, increases the accuracy of MFCC-based models, and improves the percentage of confidence in speaker identification. To validate the proposed method, a detailed study is conducted involving classical attributes of speech signals for comparison with the results obtained using Spectral MMWL + MFCC.