Dissertação
Uma abordagem híbrida CNN-HMM para reconhecimento de fala tolerante a ruídos de ambiente
Registro en:
SANTOS, Rafael Menêses. Uma abordagem híbrida CNN-HMM para reconhecimento de fala tolerante a ruídos de ambiente. 2016. 40 f. Dissertação (Pós-Graduação em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2016.
Autor
Santos, Rafael Menêses
Institución
Resumen
One of the biggest
challenges in speech recognition today is its use on a daily basis, in
which distortion and noise in the environment are present and hinder this task. In the
last thirty years, hundreds of methods for noise-robust recognition were proposed, each
with its own advantages and disadvantages. In this thesis, the use of Convolutional
Neural Networks (CNN) as acoustic
models in automatic speech recognition systems
(ASR) is proposed as an alternative to the
classical recognition methods based on
Hidden Markov Models (HMM) without any noise-robust method applied. Experiments
were performed with a audio set modified by additive and natural noises, and showed
that the presented method reduces the Equal Error Rate (EER) and improves the
acuracy of speech recognition in noisy environments when compared to traditional
models of classifiation, indicating the robustness of the approach. Um dos maiores desafios no reconhecimento de fala atualmente é usá-lo no contexto
diário, no qual distorções no sinal da fala e ruídos no ambiente estão presentes e re-
duzem a qualidade do reconhecimento. Nos últimos trinta anos, centenas de métodos
para reconhecimento robusto ao ruído foram propostos, cada um com suas vantagens e
desvantagens. Este trabalho propõe o uso de uma rede neural convolucional no papel
de modelo acústico em sistemas de reconhecimento automático de fala,como uma alter-
nativa ao métodos clássicos de reconhecimento baseado em modelos ocultos de Markov
(HMM, do inglês, Hidden Markov Models) sem a aplicação de um método robusto ao
ruído. Experimentos foram realizados com áudios modi ficados com ruídos aditivos e
reais, e mostraram que o método proposto reduz o Equal Error Rate (EER) e aumenta a
acurácia da classificação de comando de voz quando comparado a modelos tradicionais
de classificação, evidenciando a robustez da abordagem apresentada.