dc.contributorBecerra Yoma, Néstor
dc.contributorGarretón Vender, Claudio
dc.contributorMolina Sánchez, Carlos
dc.contributorFacultad de Ciencias Físicas y Matemáticas
dc.contributorDepartamento de Ingeniería Eléctrica
dc.creatorCatalán Ludwig, Ignacio
dc.date.accessioned2012-09-12T18:18:25Z
dc.date.available2012-09-12T18:18:25Z
dc.date.created2012-09-12T18:18:25Z
dc.date.issued2011
dc.identifierhttp://repositorio.uchile.cl/handle/2250/104255
dc.description.abstractEl reconocimiento de voz (ASR, Automatic Speech Recognition) consiste en traducir a texto una señal de voz. Uno de los mayores problemas de los sistemas ASR son las variaciones en el locutor. La variabilidad entre las señales generadas por distintos hablantes al pronunciar una misma palabra es mucho mayor que la variabilidad entre señales de un único usuario pronunciando la misma palabra. Esto explica que los sistemas de ASR entrenados para un solo locutor tengan una tasa de aciertos superior a un sistema independiente del hablante. El objetivo principal de la memoria es mejorar la robustez a la variabilidad de locutor en ASR. Para enfrentar este problema, una técnica ampliamente usada en la literatura es la normalización del largo del tracto vocal (VTLN, Vocal Tract Lenght Normalization). VTLN consiste en un ajuste (warping) del eje de frecuencias usado para parametrizar la señal de voz. Las funciones más usadas para realizar este ajuste dependen de un único parámetro. En aplicaciones típicas de VTLN es necesario hacer una búsqueda en barrido para poder encontrar el parámetro de normalización óptimo. En consecuencia se deben calcular las características de la señal para cada nivel de warping a evaluar, generando una carga computacional importante en los sistemas de ASR. En esta memoria se propone una nueva técnica que modela el warping que se hace sobre el banco de filtros con VTLN como una interpolación lineal de energías de filtros vecinos. Este método, denominado IFE-VTLN, es comparado con un esquema estándar de VTLN. Con el procedimiento mencionado es posible encontrar el parámetro de normalización óptimo tanto mediante un barrido como analíticamente. Al usar el modo analítico, se mejora en más de 10 veces el tiempo requerido en comparación con VTLN estándar con optimización en barrido. Al usar la técnica propuesta con una búsqueda exhaustiva se obtienen disminuciones en el WER (Word Error Rate) de un 46.3% y un 38.7% cuando se compara con el sistema base y VTLN estándar, respectivamente. Al buscar analíticamente la solución se obtienen disminuciones en el WER (Word Error Rate) de un 31.3% cuando se compara VTLN estándar. Además se propone una extensión del esquema IFE-VTLN, llamado IFE-SA, en el cual se le añaden grados de libertad al modelo, permitiendo que cada filtro se interpole mediante un parámetro de ajuste. Es así necesario encontrar un vector de características de normalización óptimo, que solamente puede ser encontrado mediante un procedimiento analítico. Los resultados preliminares con IFE-SA muestran disminuciones en el WER de un 18.1% y 6.1% cuando se compara con el sistema base y VTLN estándar respectivamente. Se concluye que las técnicas propuestas son más eficientes que VTLN estándar tanto en reducción de WER como en eficiencia computacional.
dc.languagees
dc.publisherUniversidad de Chile
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/
dc.rightsAttribution-NonCommercial-NoDerivs 3.0
dc.subjectElectricidad
dc.subjectReconocimiento automático de la voz
dc.subjectSistemas de procesamiento de la voz
dc.subjectReconocimiento de modelos
dc.subjectVTLN
dc.titleRobustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN
dc.typeTesis


Este ítem pertenece a la siguiente institución