Trabajo de grado - Pregrado
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
Registro en:
A. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021.
Autor
García Gómez, Andrés
Institución
Resumen
This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities.
In the first part, were obtained audio descriptors and a comparison was made between the different types, such as the MFCC, spectral descriptors such as the spectral centroid, spectral flatness, spectral slope among others, descriptors such as the "Chroma Vector" were also used. Which allows identifying musical notes. To obtain these descriptors, the audio characteristics extraction tools included in the Matlab 2020B Audio Toolbox and the Dan Ellis “Chroma Feature Analysis and Synthesis” library were used.
Based on the "Chroma Vector" an experimental algorithm was developed, using type IIR filters and later improved with the Q transform. Based on this method, were achieved visual representations in an RGB matrix. These visual representations were inspired by the phenomenon of synesthesia, more precisely sound-color synesthesia (Chromesthesia) and the analogous characteristics between hearing and vision.
Visual representations based on this algorithm were obtained, similar to a spectrogram in real time, using the chromatic scale and colors according to this. Such visualizations appear to be useful to observe the temporal evolution of harmony and notes in music and for identifying basic patterns in short voice signals (logatomes).
Finally, a subjective visual comparison between similar voice and music signals visualizations was made. a comparison using the “VGGish” neural network was made too, for this using its original input (mel scale filters), and the constant Q spectrum that was obtained as an audio descriptor previously, in this case showing the original input a better performance, but qualitatively it seems that the method chosen in this work visually represents the music and voice signals better Esta tesis muestra el desarrollo de un método para la representación visual de las propiedades tímbricas y dinámicas de una señal de audio en una matriz RGB, para la sustitución sensorial oído a visión en personas con discapacidad auditiva.
En una primera parte se obtuvieron descriptores de audio y se realizó una comparación entre los diferentes tipos, tales como los MFCC, descriptores espectrales como el centroide espectral, llanura espectral, pendiente espectral entre otros, también se usaron descriptores como el “Chroma Vector”, el cual permite identificar notas musicales. Para la obtención de estos descriptores se usaron las herramientas de extracción de características de audio incluidas en el Audio Toolbox de Matlab 2020B y la librería “Chroma Feature Analysis and Synthesis” de Dan Ellis.
Se desarrolló un algoritmo experimental basado en el “Chroma Vector”, usando filtros tipo IIR y posteriormente mejorado con la transformada Q, basado en este método se lograron representaciones visuales en una matriz RGB. Estas representaciones visuales se inspiraron en el fenómeno de la sinestesia, más exactamente sinestesia sonido-color “Chromesthesia” y las características análogas entre el oído y la visión.
Se obtuvieron representaciones visuales basadas en este algoritmo, similares a un espectrograma en tiempo real, usando escala cromática y colores de acuerdo a esta. Dichas visualizaciones parecen ser útiles para ver la evolución temporal de la armonía y notas en la música y la identificación de patrones básicos en señales de voz cortas (logatomos).
Finalmente, se realizó una comparación subjetiva visual entre visualizaciones de señales similares de voz y música, también una comparación con la red neuronal “VGGish”, usando su entrada original (filtros en escala mel) y como entrada el espectro de Q constante obtenido como descriptor de audio anteriormente, mostrando la entrada original un mejor desempeño, pero cualitativamente pareciera que el método elegido en este trabajo representara visualmente mejor las señales de música y la voz