dc.contributorOrozco Arroyave, Juan Rafael
dc.contributorArias Vergara, Tomás
dc.creatorParra Gallego, Luis Felipe
dc.date2022-06-06T13:32:50Z
dc.date2022-06-06T13:32:50Z
dc.date2022
dc.date.accessioned2023-08-28T20:45:50Z
dc.date.available2023-08-28T20:45:50Z
dc.identifierhttp://hdl.handle.net/10495/28983
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/8483928
dc.descriptionABSTRACT : In contact center organizations, customer satisfaction (CS) analysis is an important issue since the organization's reputation is strongly impacted by the customer's perception of the quality of service (QoS) provided. Service agents must provide exceptional service for the continual growth of the organization in today's dynamic market. In order to improve the service, these companies have human experts to evaluate the QoS. This practice is commonly based on the customer's opinion of the service after the conversation with the agent. However, such practice has two main disadvantages: 1) double cost and effort, i.e., human experts are needed to answer the calls as well as to evaluate them; and 2) only a small sample of the total number of calls is rated due to human limitations. Given these difficulties, these organizations have promoted research into the development of different systems based on acoustic and linguistic analyses that help to automatically evaluate CS. The acoustic-based system detects abnormal changes on the speech signal such as: poorly-articulated speech, increase in speech rate, increase in voice volume, and others. The linguistic-based system searches for keywords that reflect satisfaction/dissatisfaction. This approach requires an Automatic Speech Recognition (ASR) system to convert the speech signal into a text transcriptions. The ASR system must be designed in such a way that its performance is minimally dependent of the acoustic conditions. This thesis proposes a methodology to robustly recognize speech in non-controlled acoustic conditions using recordings collected by a call center. It also proposes a methodology to recognize emotion from speech and to evaluate CS based on acoustic and linguistic analysis. The acoustic features include articulation, prosody and phonation features. The linguistic features consist of word embeddings extracted from the transcriptions generated by the proposed ASR system. Deep learning approaches are considered for both speech recognition and CS evaluation and they are compared with traditional techniques.
dc.descriptionRESUMEN : En organizaciones de contact center, el análisis de satisfacción del cliente (SC) es un tema importante, ya que la reputación de la organización se ve fuertemente afectada por la percepción del cliente en la calidad del servicio (CdS) proporcionado. Los agentes de servicio deben proporcionar un servicio excepcional con el fin de permitir un continuo crecimiento de la organización en un mercado tan dinámico como el actual. Para mejorar el servicio, estas empresas cuentan con humanos expertos para evaluar la CdS. Esta práctica suele basarse en la opinión del cliente acerca el servicio tras la conversación con el agente. Sin embargo, esta práctica tiene dos desventajas principales: 1) doble costo y esfuerzo, es decir, se necesitan expertos tanto para atender las llamadas como para evaluarlas; y 2) sólo se califica una pequeña muestra del total de llamadas debido a las limitaciones humanas. Ante estas dificultades, las compañías han promovido investigación en el desarrollo de diferentes sistemas basados en análisis del habla y el lenguaje que ayuden a evaluar automáticamente la SC. El sistema basado en habla detecta cambios anormales en la señal de voz como: habla mal articulada, aumento de la velocidad del habla, aumento del volumen de voz, entre otros. El sistema basado en lenguaje busca palabras claves que reflejen la satisfacción/insatisfacción. Este enfoque requiere un sistema de reconocimiento automático del habla (RAH) para convertir la señal del habla en una transcripción de texto. El sistema RAH debe diseñarse de tal forma que su rendimiento dependa mínimamente de las condiciones acústicas. Esta tesis propone una metodología para reconocer de forma robusta el habla en condiciones acústicas no controladas utilizando grabaciones recogidas por un centro de llamadas. También propone una metodología para reconocer emociones a partir del habla y para evaluar la SC basándose en el análisis del habla y el lenguaje. Las características del habla incluyen características de articulación, prosodia y fonación. Las características del lenguaje consisten en incrustaciones de palabras extraídas de las transcripciones generadas por el sistema RAH propuesto. Los enfoques de aprendizaje profundo se consideran tanto para el reconocimiento del habla como para la evaluación de SC y se comparan con técnicas tradicionales.
dc.format93
dc.formatapplication/pdf
dc.formatapplication/pdf
dc.languageeng
dc.publisherGrupo de Investigación en Telecomunicaciones Aplicadas (GITA)
dc.publisherMedellín - Colombia
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rightshttp://purl.org/coar/access_right/c_abf2
dc.rightshttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectAprendizaje automático (inteligencia artificial)
dc.subjectMachine learning
dc.subjectReconocimiento automático de la voz
dc.subjectAutomatic speech recognition
dc.subjectSatisfacción del consumidor
dc.subjectConsumer satisfaction
dc.subjectAprendizaje profundo
dc.subjectReconocimiento de emociones
dc.subjectAnálisis multimodal
dc.subjecthttp://aims.fao.org/aos/agrovoc/c_3ee79696
dc.titleRobust Automatic Speech Recognition
dc.typeinfo:eu-repo/semantics/masterThesis
dc.typeinfo:eu-repo/semantics/draft
dc.typehttp://purl.org/coar/resource_type/c_bdcc
dc.typehttps://purl.org/redcol/resource_type/TM
dc.typeTesis/Trabajo de grado - Monografía - Maestría


Este ítem pertenece a la siguiente institución