Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
Real-time voice cloning implementation for Spanish language using Deep learning algorithm
dc.contributor | PhD. Zurek Varela, Eduardo Enrique | |
dc.creator | Camero Amador, Rubén Dario Junior | |
dc.creator | Ramos Rossetes, Jaime Josue | |
dc.creator | Mejía Suárez, Omar Ángel | |
dc.date | 2021-06-10T20:32:48Z | |
dc.date | 2021-06-10T20:32:48Z | |
dc.date | 2021-05-31 | |
dc.date.accessioned | 2023-08-25T15:56:45Z | |
dc.date.available | 2023-08-25T15:56:45Z | |
dc.identifier | http://hdl.handle.net/10584/9553 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/8431489 | |
dc.description | El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto. | |
dc.description | The Interest in computer systems capable of replicating voices has grown significantly due to its applications in different industries such as cybersecurity, eHealthcare and Audiovisual production, among others. The implementation of Deep Learning techniques allows the creation of models capable of achieving great precision and efficiency in voice replication and text-to-speech transformation tasks. For the implementation of this solution, a system based on neural networks was adapted for the synthesis of text to speech (TTS) for Spanish speakers, said system can generate voice replicas for different speakers, even when the training process does not have had samples of them. The adaptations in our created version can be classified into 2 types. The first classification addresses all the changes made to the original code, updating required libraries and their replacement, to make the source code compatible with various execution environments both in the cloud and locally. In addition, to optimize the solution to our use case. The second covers the search, standardization and transformation of the data provided as inputs to the model. The structure of the input data that received the models from the synthesizer and the encoder must conform to the requirements instantiated by the models, in order to achieve higher performance and good implementation of these. In summary, an implementation of the TTS model for the Spanish language was presented, which shows that it is possible from a short sample of input audio and text, to reproduce or clone the voice of a Spanish-speaking person. Thanks to the VISQOL metric, we were able to quantify the performance of our solution, obtaining as a result 63% given the used sample of 33 speakers and more than 1000 voice and text samples. | |
dc.format | image/png | |
dc.format | image/png | |
dc.format | application/pdf | |
dc.format | application/pdf | |
dc.language | spa | |
dc.publisher | Barranquilla, Universidad del Norte, 2021 | |
dc.rights | Universidad del Norte | |
dc.rights | openAccess | |
dc.subject | Text-to-speech | |
dc.subject | Voice Cloning | |
dc.subject | VISQOL | |
dc.subject | Deep Learning | |
dc.subject | Texto-a-voz | |
dc.subject | Aprendizaje Profundo | |
dc.subject | Clonador de voz | |
dc.subject | VISQOL | |
dc.title | Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo | |
dc.title | Real-time voice cloning implementation for Spanish language using Deep learning algorithm | |
dc.type | article |