Tesis
Reconocimiento de voz a través de técnicas híbridas utilizando modelos Markovianos y nuevos tipos de redes neuronales
Fecha
2017-11Autor
Becerra Sánchez, Aldonso
Institución
Resumen
El módulo de reconocimiento de voz dentro de un sistema de dialogo hablado
se ha convertido en un punto clave con el paso del tiempo. Las mejoras que
se le pueden hacer con los nuevos enfoques y técnicas han mostrado el camino
evolutivo que se puede dar en muchos procesos de entrenamiento y definición
de arquitecturas con el fin de obtener mejores tasas de reconocimiento. En este
sentido, el presente trabajo tiene como objetivo investigar esquemas que permitan
mejorar las tasas de error por palabra (WER). El trabajo se fundamenta en
la idea del uso de la arquitectura de red neuronal profunda y modelos ocultos
de Markov (RNP-MOM), la cual se basa en gran medida en el comportamiento
del enfoque de modelo de mezclas Gaussianas y modelos ocultos de Markov
(MMG-MOM). En primera instancia se hacen comparaciones experimentales en
el funcionamiento de ambos enfoques tomando como punto de partida un corpus
de voces personalizado en Español de la parte norte central de México, basado en
una tarea de marcado telefónico a través de reconocimiento de dígitos numéricos
y nombres completos de personas, con independencia de locutor, con dependencia
de texto, de tamaño mediano y con palabras conectadas. En el primer caso
de estudio experimental se obtuvo una mejora relativa del 30% usando el modelo
acústico de redes neuronales (WER de 1:49%), en comparación con el modelo clásico
de mezclas Gaussianas (2:12%). En el segundo caso de estudio se consiguió
una mejora relativa de 20:71% en la tasa de error por palabras del enfoque conexionista
(redes neuronales, WER de 3:33%) con respecto al modelo de mezclas
Gaussianas (4:20%). En las tareas de reconocimiento presentadas se muestra que
los enfoques actuales cimentados en modelos conexionistas, con origen en la inteligencia artificial, superan en la mayoría de los procesos de reconocimiento a
los enfoques tradicionales de mezclas Gaussianas. Con el fin de conseguir mejoras
en los modelos recientes de reconocimiento de voz, en la segunda parte del
trabajo se proponen nuevas funciones de costo para entrenar una red neuronal,
denominando a estas funciones como mapeadas no uniformes. Estas funciones
permiten obtener mejores tasas de reconocimiento en comparación con la función
convencional de entropía cruzada dentro del entrenamiento de una red neuronal
profunda, utilizando para ello el algoritmo de retro-propagación y una optimización
con el gradiente descendente. Los resultados obtenidos (se consiguió una
mejora relativa de 12:3% y 10:7% con los dos enfoques planteados, con respecto
al modelo base de entropía cruzada) han mostrado mejoras en las tasas de error
por palabra, sugiriendo que las funciones de costo propuestas tienen argumentos
para ser consideradas como alternativas interesantes en este tipo de tareas.
No obstante, se debe seguir en la labor de probar este y nuevos mecanismos de
función de costo con diferentes corpus de voces y en diversos entornos con y sin
ruido ambiental, además de considerar variaciones radicales en los origenes de
voz de los locutores.