Robustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN

Catalán Ludwig, Ignacio

dc.contributor	Becerra Yoma, Néstor
dc.contributor	Garretón Vender, Claudio
dc.contributor	Molina Sánchez, Carlos
dc.contributor	Facultad de Ciencias Físicas y Matemáticas
dc.contributor	Departamento de Ingeniería Eléctrica
dc.creator	Catalán Ludwig, Ignacio
dc.date.accessioned	2012-09-12T18:18:25Z
dc.date.available	2012-09-12T18:18:25Z
dc.date.created	2012-09-12T18:18:25Z
dc.date.issued	2011
dc.identifier	http://repositorio.uchile.cl/handle/2250/104255
dc.description.abstract	El reconocimiento de voz (ASR, Automatic Speech Recognition) consiste en traducir a texto una señal de voz. Uno de los mayores problemas de los sistemas ASR son las variaciones en el locutor. La variabilidad entre las señales generadas por distintos hablantes al pronunciar una misma palabra es mucho mayor que la variabilidad entre señales de un único usuario pronunciando la misma palabra. Esto explica que los sistemas de ASR entrenados para un solo locutor tengan una tasa de aciertos superior a un sistema independiente del hablante. El objetivo principal de la memoria es mejorar la robustez a la variabilidad de locutor en ASR. Para enfrentar este problema, una técnica ampliamente usada en la literatura es la normalización del largo del tracto vocal (VTLN, Vocal Tract Lenght Normalization). VTLN consiste en un ajuste (warping) del eje de frecuencias usado para parametrizar la señal de voz. Las funciones más usadas para realizar este ajuste dependen de un único parámetro. En aplicaciones típicas de VTLN es necesario hacer una búsqueda en barrido para poder encontrar el parámetro de normalización óptimo. En consecuencia se deben calcular las características de la señal para cada nivel de warping a evaluar, generando una carga computacional importante en los sistemas de ASR. En esta memoria se propone una nueva técnica que modela el warping que se hace sobre el banco de filtros con VTLN como una interpolación lineal de energías de filtros vecinos. Este método, denominado IFE-VTLN, es comparado con un esquema estándar de VTLN. Con el procedimiento mencionado es posible encontrar el parámetro de normalización óptimo tanto mediante un barrido como analíticamente. Al usar el modo analítico, se mejora en más de 10 veces el tiempo requerido en comparación con VTLN estándar con optimización en barrido. Al usar la técnica propuesta con una búsqueda exhaustiva se obtienen disminuciones en el WER (Word Error Rate) de un 46.3% y un 38.7% cuando se compara con el sistema base y VTLN estándar, respectivamente. Al buscar analíticamente la solución se obtienen disminuciones en el WER (Word Error Rate) de un 31.3% cuando se compara VTLN estándar. Además se propone una extensión del esquema IFE-VTLN, llamado IFE-SA, en el cual se le añaden grados de libertad al modelo, permitiendo que cada filtro se interpole mediante un parámetro de ajuste. Es así necesario encontrar un vector de características de normalización óptimo, que solamente puede ser encontrado mediante un procedimiento analítico. Los resultados preliminares con IFE-SA muestran disminuciones en el WER de un 18.1% y 6.1% cuando se compara con el sistema base y VTLN estándar respectivamente. Se concluye que las técnicas propuestas son más eficientes que VTLN estándar tanto en reducción de WER como en eficiencia computacional.
dc.language	es
dc.publisher	Universidad de Chile
dc.rights	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/
dc.rights	Attribution-NonCommercial-NoDerivs 3.0
dc.subject	Electricidad
dc.subject	Reconocimiento automático de la voz
dc.subject	Sistemas de procesamiento de la voz
dc.subject	Reconocimiento de modelos
dc.subject	VTLN
dc.title	Robustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN
dc.type	Tesis

Este ítem pertenece a la siguiente institución

Universidad de Chile