Tesis
Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
Modeling of the human vocal system and its application to studies of speech perception and production
Autor
Assaneo, María Florencia
Institución
Resumen
Desde el punto de vista biológico el proceso del habla puede separarse en dos etapas moduladas entre sí: la producción y la percepción. En este trabajo nos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdas vocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica, determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tracto vocal. En esta tesis presentamos un modelo completo de producción vocal, incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales y su adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamos una combinación de test perceptuales y de resonancia magnética funcional, cuyos resultados muestran que la voz sintética es indistinguible de segmentos de voz real. Los sintetizadores basados en la física de la producción de voz permiten además el estudio de la percepción de voz controlando parámetros biológicos. En particular, en este trabajo mostramos que la identidad de la voz está codificada en términos de las dimensiones relativas entre las cuerdas vocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responder preguntas de la biolingüística y la biomimética. En primer lugar, investigamos el rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación, es difícil establecer qué se preserva acústicamente entre los sonidos y sus onomatopeyas. Utilizamos el modelo vocal para mostrar que las configuraciones del tracto vocal que producen los sonidos más parecidos a los originales corresponden a consonantes co-articuladas. Estos pares vocal-consonante se corresponden, además, con las sílabas más estables de las onomatopeyas en distintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espacio motor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos de la cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantes oclusivas del español, mostrando además la viabilidad de controlar el modelo de producción vocal con variables anatómicas para la síntesis de voz en tiempo real a partir de los gestos anatómicos producidos durante el habla.