Dissertação
Reconhecimento de emoções através da fala aplicado a robôs de assistência doméstica
Fecha
2022Registro en:
Autor
Meyer, T. S. B. M.
Resumen
Por meio da fala, que privilegia a natureza funcional e interativa do texto, é possível averiguar
as circunstâncias espaço-temporais, as condições de produção e recepção do discurso, os
propósitos explícitos como informar, explicar, convencer etc. Condições essas que permitem
aproximar a interação entre humanos à interação entre humanos e robôs tomando-a natural e
sensível às informações. No entanto, não basta compreender o que é falado, faz-se necessário
o reconhecimento de emoções para a interação desejada. Verificou-se a validez do uso de
redes neurais para seleção de características e para o reconhecimento de emoções. Para isso
propõe-se o uso de Redes Neurais e comparação de modelos, como redes neurais recorrentes e
redes neurais profundas, com intuito de realizar a classificação das emoções através dos sinais
de fala para verificar a qualidade do reconhecimento. Espera-se possibilitar a implementação
em robôs de um ambiente doméstico, como o robô HERA da equipe RoboFEI@Home, que tem
como foco robôs de serviço autônomos para o ambiente doméstico. Foram realizados testes
utilizando-se apenas os Coeficientes Cepstrais da Frequência-Mel, bem como testes com diversas
características do Delta-MFCC, contraste espectral e o espectrograma-Mel. Para realizar o
treinamento, validação e testes das redes neurais, usufruiu-se a base de dados eNTERFACE'05,
que possui 42 locutores de 14 nacionalidades diferentes falando o idioma inglês. Os dados
da base escolhida são vídeos que, para o uso nas redes neurais, foram convertidos em áudios.
Constatou-se como resultado uma classificação de 52% de acertos quando empregada a rede
neural profunda, quando verificado o uso da rede neural recorrente, sendo a classificação com
acurácia igual 44%. Os resultados apresentam maior acurácia quando apenas os Coeficientes
Cepstrais da Frequência-Mel são usados para a classificação, utilizando o classificador com a
Rede Neural Profunda e em apenas um caso é possível observar um maior acerto por parte da
Rede Neural Recorrente, que se dá no uso de diversas características e na configuração de 73
para o tamanho do Batch e 100 épocas de treinamento Through speech, which privileges the functional and interactive nature of the text, it is
possible to ascertain the spatio-temporal circumstances, the conditions of production and reception
of the discourse, the explicit purposes such as informing, explaining, convincing etc.
These conditions allow bringing the interaction between humans closer to the Human-Robot
interaction, making it natural and sensitive to information. However, it is not enough to understand
what is said, it is necessary to recognize emotions for the desired interaction. The
validity of the use of neural networks for feature selection and emotion recognition was verified.
For this purpose, it is proposed the use of Neural Networks and comparison of models,
such as recurrent neural networks and deep neural networks, in arder to carry out the classification
of emotions through speech signals to verify the quality of recognition. It is expected to
enable the implementation in robots in a domestic environment, such as the HERA robot from
the RoboFEI@Home team, which focuses on autonomous service robots for the domestic environment.
Tests were performed using only the Mel-Frequency Cepstral Coefficients, as well
as tests with severa! characteristics of Delta-MFCC, spectral contrast and the melspectrogram.
To carry out the training, validation and testing of the neural networks, the eNTERFACE'05
database was used, which has 42 speakers from 14 different nationalities speaking the English
language. The data from the chosen database are vídeos that, for use in neural networks, were
converted into audios. It was found as a resulta classification of 52% of correct answers when
using the deep neural network, when the use of the recurrent neural network was verified, with
the classification with accuracy equal to 44%. The results are more accurate when only the
Mel-Frequency Cepstral Coefficients are used for the classification, using the classifier with the
Deep Neural Network and in only one case it is possible to observe a greater accuracy by the
Recurrent Neural Network, which occurs in the use of various features and setting 73 for Batch
size and 100 training epochs