Clasificación de escenas acústicas a través de descriptores de audio y máquinas de aprendizaje. Aplicación en escenas de Medellín

Chica Osorio, Carlos Andrés; Yurgaky Valoyes, Dudley

dc.contributor	Ochoa Villegas, Jonathan
dc.creator	Chica Osorio, Carlos Andrés
dc.creator	Yurgaky Valoyes, Dudley
dc.date	2019-01-23T15:45:07Z
dc.date	2019-01-23T15:45:07Z
dc.date	2019
dc.date	2019-01-23
dc.date.accessioned	2023-09-07T15:31:14Z
dc.date.available	2023-09-07T15:31:14Z
dc.identifier	[1] C. A. Chica Osorio, y D. Yurgaky Valoyes, “Clasificación de escenas acústicas a través de descriptores de audio y máquinas de aprendizaje. Aplicación en escenas de Medellín”, Tesis Ingeniería de Sonido, Universidad de San Buenaventura Medellín, Facultad de Ingenierías, 2019
dc.identifier	http://hdl.handle.net/10819/6827
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/8734513
dc.description	In recent years, automatic learning methods have been paired to obtain models for the analysis and classification of audio signals, such as the support vector machines, Ensemble Classifier, among others. These methods present a problem because they are not very understandable in their internal functioning, since they do not show the user an explanatory structure of how predictions are made and that they are understandable. It is worth mentioning that the models are accurate, but they are not presented properly. There is not a sound bank of the acoustic scenes of the city, it was necessary to record these outside scenes in the field. Audio descriptors such as MFCC and Chroma Vector were used to identify the acoustic scenes together with two SVM algorithms and one Ensemble Classifier. The result was an efficiency rate of 72.22% for the cases of SVM machines (Medium Gaussian and Quadratic), which are satisfactory. On the other hand, the learning machine based on Ensemble Classifier (Boosted Tree) had an Accuracy rate of 55.55%, this being a low performance machine.
dc.description	los últimos años, han aparecido métodos de aprendizaje automático que permiten obtener modelos para el análisis y clasificación de señales de audio (etiquetadas), como las máquinas de vectores de soporte, Ensemble Classifier, entre otros. Estos métodos presentan un problema al ser poco comprensibles en su funcionamiento interno, ya que, no muestran al usuario una estructura explicativa de como realizan las predicciones y que estas sean entendibles. Vale aclarar que los modelos son precisos, pero no son presentados adecuadamente. Debido a que no existe un banco de sonidos de las escenas acústicas de la ciudad, fue necesario realizar grabaciones en campo de dichas escenas en exteriores. Se emplearon descriptores de audio tales como MFCC y Chroma Vector, para la identificación de las escenas acústicas en conjunto con dos algoritmos SVM y uno Ensemble Classifier. El producto fue una tasa de eficiencia del 72,22% para los casos de las máquinas SVM (Medium Gaussian y Quadratic), los cuales son satisfactorios. Por otro lado, la máquina de aprendizaje basada en Ensemble Classifier (Boosted Tree) tuvo una tasa de eficiencia del 55,55%, siendo esta una máquina de bajo rendimiento.
dc.format	pdf
dc.format	61 páginas
dc.format	Recurso en linea
dc.format	application/pdf
dc.format	application/pdf
dc.language	spa
dc.publisher	Ingenierias
dc.publisher	Ingeniería de Sonido
dc.publisher	Medellín
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Atribución-NoComercial-SinDerivadas 2.5 Colombia
dc.rights	Por medio de este formato manifiesto mi voluntad de AUTORIZAR a la Universidad de San Buenaventura, Sede Bogotá, Seccionales Medellín, Cali y Cartagena, la difusión en texto completo de manera gratuita y por tiempo indefinido en la Biblioteca Digital Universidad de San Buenaventura, el documento académico-investigativo objeto de la presente autorización, con fines estrictamente educativos, científicos y culturales, en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión Andina 351 de 1993, Decreto 460 de 1995 y demás normas generales sobre derechos de autor. Como autor manifiesto que el presente documento académico-investigativo es original y se realiza sin violar o usurpar derechos de autor de terceros, por lo tanto, la obra es de mi exclusiva autora y poseo la titularidad sobre la misma. La Universidad de San Buenaventura no será responsable de ninguna utilización indebida del documento por parte de terceros y será exclusivamente mi responsabilidad atender personalmente cualquier reclamación que pueda presentarse a la Universidad. Autorizo a la Biblioteca Digital de la Universidad de San Buenaventura convertir el documento al formato que el repositorio lo requiera (impreso, digital, electrónico o cualquier otro conocido o por conocer) o con fines de preservación digital. Esta autorización no implica renuncia a la facultad que tengo de publicar posteriormente la obra, en forma total o parcial, por lo cual podrá, dando aviso por escrito con no menos de un mes de antelación, solicitar que el documento deje de estar disponible para el público en la Biblioteca Digital de la Universidad de San Buenaventura, así mismo, cuando se requiera por razones legales y/o reglas del editor de una revista.
dc.rights	http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.source	[1] K. Hyoung-Gook, N. Moreau y T. Sikora, MPEG-7 Audio and Beyond Audio Content Indexing and Retrieval, Primera ed., Berlín: John Wiley & Sons, Ltd, 2005.
dc.source	[2] D. W. Thomas y B. R. Wilkins, "The analysis of vehicle sounds for recognition" PatternRecognition, 1 ed., vol. 4, Southampton: Elsevier, 1972, pp. 379-389.
dc.source	[3] Advanced Tech Computing Group, 14 Abril 2008. [En línea]. Available: http://bit.ly/2C60wqo.
dc.source	[4] P. Herrera, X. Serra y G. Peters, «Audio Descriptors and Descriptor Schemes in the Context of MPEG-7,» Proceedings Of The ICMC99.
dc.source	[5] Mathworks, MATLAB, 2015.
dc.source	[6] R. Loughran, J. Walker, M. O'Neill y M. O'Farrell, «"The Use of Mel Frequency Cepstral Coefficients in Musical Instrument Identification",» Limerik, 2008.
dc.source	[7] P. Pertila, «Mel-frequency cepstral coefficients (MFCCs) and gammatone filter banks Introduction,» TUT, 2015.
dc.source	[8] T. Giannakopoulos y A. Pikrakis, Introduction to Audio Analysis. A MATLAB Approach Academic Press, Primera ed., Oxford: Elsevier, 2014, pp. 59-180.
dc.source	[9] D. G. Altman y J. M. Bland, 11 Junio 1994. [En línea]. Available: http://bit.ly/2QJvm0n.
dc.source	[10] J. Devore, "Probabilidad y Estadística para Ingeniería y Ciencias", Séptima ed., vol. I, Ciudad de Mexico: Cengage Learning, 2008, pp. 254-281
dc.source	[11] J. Salamon, C. Jacoby y J. P. Bello, «A Dataset and Taxonomy for Urban Sound Research,» Proceedings of the 2014 ACM Conference on Multimedia, vol. 3, pp. 1041-1044, 2014.
dc.source	[12] AENOR, «ISO 1996-1: Descripción, medición y evaluación del ruido ambiental,» 2005.
dc.source	[13] A. Mesaros, T. Heittola y T. Virtanen, «TUT database for acoustic scene classification and sound event detection,» 18th European Signal Processing Conference, pp. 1267-1271, 2016.
dc.source	[14] AENOR, «UNE-ISO 1996-2: Descripción, medición y evaluación del ruido ambiental. Determinación de los niveles de ruido ambiental",» 2009
dc.source	[15] Brüel & Kjaer, «Sound & Vibration Measurement A/S,» 2000.
dc.source	[16] A. Das, N. Borisov y M. Caesar, «"Do You Hear What I Hear?: Finger Printing Smart Devices Through Embedded Acoustic Components",» CCS'14 Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security, pp. 441-452, 2016.
dc.source	[17] E. Marchi , D. Tonelli, X. Xu, F. Ringeval, J. Deng , S. Squartini y B. Schuller, «Pairwise Decomposition with Deep Neural Networks and Multiscale Kernel Subspace Learning for Acoustic Scene Classification,» Budapest, 2016.
dc.source	Universidad de San Buenaventura - Medellín
dc.source	Biblioteca USB Medellín (San Benito) CD-4985t
dc.source	Biblioteca Digital Universidad de San Buenaventura
dc.subject	Grabaciones en campo
dc.subject	Aprendizaje automático
dc.subject	Descriptores de audio
dc.subject	Eficiencia
dc.subject	Field recording
dc.subject	Machine Learning
dc.subject	Audio predictors
dc.subject	Accuracy
dc.subject	Transmisión del sonido
dc.subject	Fuentes de sonido
dc.subject	Sonido digital
dc.subject	Ingeniería de sonido
dc.subject	Fuentes acústicas
dc.subject	Acústica
dc.subject	Efectos y procesamiento de audio
dc.subject	Sistemas de procesamiento de audio
dc.subject	Producción de audio
dc.subject	Equipos de audio portátil
dc.subject	Frecuencia de audio
dc.subject	Audio
dc.title	Clasificación de escenas acústicas a través de descriptores de audio y máquinas de aprendizaje. Aplicación en escenas de Medellín
dc.type	Trabajo de grado - Pregrado
dc.type	Trabajo de Grado
dc.type	info:eu-repo/semantics/bachelorThesis

Este ítem pertenece a la siguiente institución

Universidad de San Buenaventura (Colombia)

Clasificación de escenas acústicas a través de descriptores de audio y máquinas de aprendizaje. Aplicación en escenas de Medellín

Este ítem pertenece a la siguiente institución

Ítems relacionados

Creación de Audio Digital ﻿

Creación de un prototipo de audiojuego con implementación de audio binaural ﻿

Diseño sonoro ambisonics para una narrativa audiovisual en video 360 integrado a un ambiente de realidad virtual ﻿

Creación de Audio Digital

Creación de un prototipo de audiojuego con implementación de audio binaural

Diseño sonoro ambisonics para una narrativa audiovisual en video 360 integrado a un ambiente de realidad virtual