Tesis Doctorado
Reconocimiento robusto de patrones acústicos basados en el sistema auditivo periférico
Autor
Becerra-Yoma, Néstor
Universidad de Chile
Institución
Resumen
La verificación de locutor (SV) por biometría de voz, se ha integrado en diversas aplicaciones como interfaz de comunicación entre personas y máquinas. Sin embargo, su principal inconveniente es enfrentar variabilidades o mismatch entre condiciones de entrenamiento y prueba. La robustez es la propiedad que le permite mantener su funcionamiento superando perturbaciones. En SV existe necesidad de extraer parámetros espectrales propios del locutor y robustos a ruido y a efectos de distorsión de canal. Varios métodos de extracción se inspiran en la fisiología periférica auditivo y en teorías de codificación neuronal de fibras del nervio auditivo (AN). El término "periférico" se utiliza para dar a entender aquella parte del sistema auditivo que es externo al sistema nervioso central (CNS). La salida del sistema auditivo periférico es la actividad del AN. A su vez, esta actividad es la entrada al CNS.Esta tesis aborda dos novedosos métodos inspirados en la periferia auditiva que contribuyen a la robustez de sistemas de SV, ante condiciones de mismatch por ruido aditivo y por variabilidad en el canal acústico de transmisión, en una tarea de reconocimiento de patrones acústicos: verificación de locutor de texto-independiente (TI-SV). El primero, esuna función sigmoidal óptima, tasa-nivel, que es una componente de muchos modelos del sistema auditivo periférico. La optimización usa criterios definidos exclusivamente sobre la base de atributos físicos del sonido de entrada inspirados en evidencia fisiológica. Estos criterios, discriminan entre una señal de voz degradada, y ruido, para preservar la máxima cantidad de información en la región lineal de la curva sigmoidal y para minimizar la distorsión en regiones de saturación. El desempeño de la función sigmoidal se valida con experimentos de TI-SV, con señales degradadas por ruido aditivo a diferentes SNRs. Los resultados, comparados con el sistema baseline MFCC, muestran que el método propuesto, en combinación con normalización de varianza cepstral (CVN), conduce a reducciones relativas en EER, tan grandes como 40% en ciertos SNRs. A continuación, se presenta un nuevo conjunto de features, llamados Coeficientes CepstralesLocalmente-Normalizados (LNCCs), que se basan en el Detector de Sincronía Generalizada(GSD) de Stephanie Seneff. El método propuesto, motivado perceptualmente, permite normalizar en forma instantánea features de voz. La efectividad de los LNCCs se demuestraen una tarea de TI-SV a lo largo de una variedad de condiciones de tilt espectral en el canal acústico de transmisión. Los resultados, comparados con el sistema baseline MFCC y con MFCC+CMN, muestran que los LNCCs se caracterizan por requerir de baja complejidad computacional y por compensar más ampliamente el tilt espectral que los coeficientes MFCCs. Además, LNCCs no requieren el cálculo y almacenamiento de un promedio móvil de valores de features, proporcionando reducciones relativas en EER tan altas como 32% y 35% cuando se comparan con MFCC y MFCC+CMN, con tilt espectral variable, respectivamente.Es interesante destacar que los features L CC pueden llegar a ser una alternativa a MFCCy MFCC+CMN, en cualquier situación donde es difícil estimar confiablemente la media cepstral.Ambas estrategias propuestas en esta tesis, comparadas con el sistema baseline MFCC,consiguen robustez del sistema TI-SV mejorando su desempeño frente a diversas condiciones de mismatch.