dc.contributorGutierrez Caceres, Juan Carlos
dc.creatorRamos Lovón, Wilber Roberto
dc.date.accessioned2021-02-11T19:14:05Z
dc.date.accessioned2022-10-26T22:48:04Z
dc.date.available2021-02-11T19:14:05Z
dc.date.available2022-10-26T22:48:04Z
dc.date.created2021-02-11T19:14:05Z
dc.date.issued2019
dc.identifierhttp://hdl.handle.net/20.500.12773/11909
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/4863501
dc.description.abstractEstá tesis presenta un análisis del paradigma End-To-End Deep Learning, que proyecta importantes desarrollos en diversas áreas de investigación. Este paradigma ha revolucionado la arquitectura, la implementación y las aplicaciones de los sistemas computacionales que se denominan comúnmente ASR 1 los cuales son capaces de reconocer el habla y generar un texto en forma automática que represente lo hablado. Este análisis, se basa en el trabajo del Baidu Research – Silicon Valley AI Lab, denominado Deep Speech [2]. La clave de este enfoque es el entrenamiento de una RNN 2 optimizada, que utiliza GPU 3, así como un conjunto de nuevas técnicas de sintetización que nos permiten obtener una gran cantidad de datos variados para el entrenamiento. Está arquitectura es más simple que los sistemas de voz tradicionales, que se basan en el enfoque estadístico, con arquitecturas de estructura poco profunda como GMM-HMM 4, que tienden a funcionar mal cuando se usan en entornos ruidosos. Por el contrario, Deep Speech no necesita un diccionario de fonemas y tampoco filtros para eliminar el ruido de fondo, la reverberación o la variación de los altavoces, sino que aprende directamente de una función que es robusta. El entrenamiento de los sistemas End-To-End se basa en gradientes descendentes al sistema en su conjunto y están diseñados específicamente para que todos los módulos sean diferenciables. El Deep Speech muestra claramente el esquema de entrenamiento unificado, que aprovecha la mayor parte de la información disponible, teniendo en cuenta las etiquetas (aprendizaje supervisado) y las recompensas (aprendizaje de refuerzo), en lugar de depender solo de la distribución de entrada (pre-entrenamiento no supervisado). Debido a las complejidades involucradas en el paradigma End-To-End Deep Learning, muchas veces es tratado como una caja negra por las personas que lo usan. Sin embargo, para obtener el máximo beneficio, uno debe descubrir el misterio oculto observando la ciencia de la computación y las matemáticas asociadas con él. TensorFlow ha sido elegido por su flexibilidad para fines de investigación y su facilidad de uso. El código presentado en está tesis está disponible y permite probar ejemplos y presentar casos de uso
dc.languagespa
dc.publisherUniversidad Nacional de San Agustín de Arequipa
dc.publisherPE
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rightsinfo:eu-repo/semantics/openAccess
dc.sourceUniversidad Nacional de San Agustín de Arequipa
dc.sourceRepositorio Institucional - UNSA
dc.subjectAutomatic Speech Recognition
dc.subjectEnd-To-End Deep Learning
dc.subjectciencia de la computación
dc.subjectmatemáticas
dc.titleEnd-To-End Deep Learning para el reconocimiento automático del habla
dc.typeTesis


Este ítem pertenece a la siguiente institución