bachelorThesis
Caracterización de voz empleando análisis tiempo - frecuencia aplicada al reconocimiento de emociones
Autor
Duque Sánchez, Christian
Morales Pérez, Mauricio
Institución
Resumen
La voz además de permiter comunicarnos (habla), es también una señal biológica que contiene información extra-lingüística sobre características físicas, estados fisiológicos y emocionales. Se presenta en este trabajo una metodología para la caracterización de la señal de voz aplicada en el reconocimiento de estados emocionales. Los diferentes estados emocionales de un hablante producen cambios fisiológicos en el aparato fonador, lo que se ve reflejado en la variación de dichas características. Las técnicas empleadas en el análisis de la señal de voz se pueden dividir en dos categorías: Transformadas Tiempo-Frecuencia y Análisis Paramétrico. La primera de estas categorías hace referencia a la representación de la señal en espacios conjuntos del tiempo y la frecuencia, permitiendo conocer la ubicación temporal del contenido espectral, esta técnica es efectiva en el tratamiento de señales no estacionarias como es la señal de voz. El análisis paramétrico busca estimar un modelo matemático que de forma aproximada represente el sistema de producción vocal. Este documento se divide en la siguiente forma: en el Capítulo 1 se describe la fisiología del mecanismo de producción de voz y la naturaleza de los sonidos. En el Capítulo 2 se hace una introducción a la naturaleza de las emociones, su clasificación y efectos en el habla. En el Capítulo 3 se encuentran las técnicas de análisis empleadas para la extracción de características. En el Capítulo 4 se hace una descripción de las características extraídas de acuerdo a la técnica de análisis empleada. En el Capítulo 5 se desarrolla la metodología de evaluación y se muestran los resultados obtenidos. The voice besides contains information that allows comunication (speech) is also a biological signal that contains information about phisycal features, functional and emotional states. This work presents a methodology for the characterization of voice signal applied to the recognition of emotional states. The different emotional states produce physiologyc changes in vocal producction system, wich are reflected in the variation of these features. The techniques used in the voice signal analysis can be divided in two categories: Time-Frequency Representation and Parametric Analysis. The first one makes reference to the signal representation in a time-frequency joint domain, this alternative let know the spectral content in the temporal domain without losing the resolution in any of the two spaces, it makes good to the analysis of non-stationary signal like the voice. The second category search to estimate mathematic models that represents the vocal production system, reducing the number of parameters used in the analysis. This document is divided in the following way: Chapter 1 descibes the physiology of the vocal production mechanism and the sound nature. Chapter 2 makes an introducction of emotion nature and effects in the speech. In Chapter 3 are found the analysis technique employed in features extraction. Chapter 4 makes a description of the extracted features according to the analysis technique employed. Chapter 5 develop the evaluation methodology and saw the obtained results.