Tesis
Reconocimiento robusto de voz en sistemas DNN-HMM utilizando parametrización normalizada localmente
Fecha
2023Autor
Fredes Sandoval, Josué Abraham
Institución
Resumen
En esta tesis se describe las modificaciones a la parametrización de bancos de filtros
normalizados localmente que mejoran sustancialmente su rendimiento en la tarea de reconocimiento
robusto de voz en la base de datos Aurora-4, utilizando un sistema basado en Deep Neural Network
– Hidden Markov Models (DNN-HMM). Los coeficientes modificados, denominados Locally
Normalized Filter Banks (LNFB), son una versión de banco de filtros de los Locally Normalized
Cepstral Coefficients (LNCC) , propuestos anteriormente.
El uso de LNFB proporciona una reducción relativa media de la tasa de error de 11,4 % y 9,4 %
en comparación con el caso baseline en condiciones de entrenamiento limpio y multi-ruido. Los
resultados presentados aquí sugieren que LNFB es más robusta a diferencias de canal entre datos
de entrenamiento y prueba , y es más eficaz para enfrentar la diversidad de canal.
A continuación se estudia la complementariedad de sistemas DNN-HMM entrenados sobre una
misma base de datos, pero con distintas parametrizaciones. Se entrenaron sistemas usando cuatro
parametrizaciones distintas aplicando en cada caso la técnica de corrección Weighted Predictor
Error, sobre una base de datos reverberante. La combinación de sistemas lleva a un 17,6 % de
reducción relativa de la tasa de error respecto al mejor sistema sin combinar.