Tesis
Conversión de voz y separación de locutores
Fecha
2017-06-07Registro en:
Montaño Sánchez, César Edgar. Conversión de voz y separación de locutores. Tesis (Maestría en Ciencias en Ingeniería de Cómputo). Ciudad de México, Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Centro de Investigación en Computación. 2016. 125 p.
Autor
Montaño Sánchez, César Edgar
Institución
Resumen
El análisis de señales de voz con el fin de hacer el reconocimiento del locutor va teniendo mayor número de aplicaciones en diversas áreas de la industria, ejemplos claros de sistemas que ocupan el reconocimiento de locutor son: sistemas de mandos por voz, sistemas de seguridad por autenticación de locutor, sistemas de marcado telefónico, control de robots; entre otros.
De la misma forma los sistemas producción de voz sintética ya tienen un auge aun mayor, dado su uso en sistemas como: contestador telefónico, sistemas de ayuda en dispositivos móviles, síntesis de mensajes de texto, etc.
De la unión de ambos tipos de sistemas surgen los sistemas de conversión de voz, donde se utilizan ambos estudios para realizar un reconocimiento de locutor o locutores para después reproducir el contenido fonético del mensaje con una voz sintetizada. La voz que será sintetizada se producirá con las características fonéticas de cualquiera de los locutores con los que cuente el sistema.
El propósito de este trabajo es disponer de una arquitectura propuesta de caracterización de la voz de locutores, asimismo una vez lograda la correcta caracterización se pretende realizar la imitación de voz de un locutor al repetir el texto acotado por el otro locutor. Los principales parámetros que se analizan en este trabajo son los Codificadores predictivos lineales y los coeficientes cepstrales en la escala de Mel.
Las técnicas empleadas son: Cuantificación vectorial, modelos ocultos de Markov discretos y de densidad continua, además de arquitecturas que combinan ambos análisis. Siendo la técnica de modelos ocultos de Markov de densidad continúa que utiliza coeficientes cepstrales en escala de Mel la que alcanzó el mayor porcentaje de exactitud en los corpus utilizados.
Para la etapa de síntesis se probaron técnicas de síntesis por formantes, síntesis basadas en LPCs y síntesis por concatenación. El método utilizado para la síntesis fue el de concatenación, siendo las unidades lingüísticas utilizadas los di fonos.
Los resultados cualitativos alcanzados tienen porcentaje de efectividad del 98% para la arquitectura total del sistema, dicho porcentaje de efectividad fue registrado con la realización de pruebas MOS, dichos resultados en esta tesis podrán ser utilizados en otras aplicaciones para traducción automática, conversión, doblaje y reconocimiento de voz.