Tesis
Reconhecimento de emoções na fala a partir da extração manual de características com validação baseada na engenharia paraconsistente
Fecha
2022-02-24Registro en:
33004153073P2
Autor
Guido, Rodrigo Capobianco [UNESP]
Universidade Estadual Paulista (Unesp)
Institución
Resumen
Speech Emotion Recognition (SER) pode ser definida como a maneira automatizada de identificar o estado emocional de um locutor a partir da sua voz. Dentre as metodologias encontradas na literatura para viabilizar o SER, as quais ainda carecem de melhor compreensão e discussão, o presente trabalho ocupa-se da abordagem handcrafted extraction para a composição dos vetores de características responsáveis por permitir a classificação dos sinais de voz entre sete classes emocionais distintas: raiva, tédio, desgosto, medo, felicidade, neutralidade e tristeza. Os descritores utilizados, os quais foram obtidos por meio da energia clássica, do Operador de Energia de Teager, do zero crossing rate, da planaridade espectral e da entropia espectral, foram submetidos à Engenharia Paraconsistente de Características, que é responsável por selecionar o melhor subgrupo de características a partir da análise de similaridades e dissimilaridades intra e interclasse, respectivamente. Finalmente, um algoritmo genético associado à uma rede neural multilayer perceptron foi responsável por realizar a classificação dos sinais visando a maior taxa de acurácia possível, isto é, 84.9%, considerando a base de dados pública EMO_DB com 535 sinais na modalidade speaker-independent. Em contraste com abordagens do tipo feature learning, a estratégia proposta permitiu uma melhor compreensão física do problema em questão. Speech Emotion Recognition (SER) can be defined as the automated way to identify spe akers’ emotional states from their voices. Considering the methodologies found in the li terature, for which there is room for further research and better comprehension, this mo nograph considers a handcrafted feature extraction approach to create the feature vectors responsible for the classification of voice signals in one of the seven different classes: anger, boredom, disgust, fear, happiness, neutrality and sadness. The descriptors adopted, which were obtained based on regular energy, on Teager Energy Operator, on zero crossing rates, on spectral flatness and on spectral entropy, were submitted to the Paraconsistent Feature Engineering, which was responsible for selecting the best subgroup of features from the analysis of intra- and interclass similarities and dissimilarities, respectively. Lastly, a genetic algorithm associted with a multiplayer perceptron neural network was responsible for perfor ming the classification of the described signals aiming at the highest possible accuracy rate, i.e., 84.9%, considering the well-known EMO_DB database with 535 signals in a speaker independent approach. In contrast with feature learning strategies, the proposed approach allowed for a better comprehension of the problem being treated.