article
Herramienta software para identificación automática de acento local
Software tool for local accent automatic identification
Autor
Correa Neira, Tania Liseth
Bolivar Acosta, Yorlene
Institución
Resumen
Las variaciones en los acentos es uno de los factores que más afecta el rendimiento de los sistemas de reconocimiento de voz. En Colombia, a pesar de existir una diversidad de acentos, no se ha realizado una evaluación formal de los métodos actuales para identificación automática de este, los cuales se centran en el idioma inglés.
Se propone la implementación de una herramienta que permite identificar cuando un audio o alguna frase leída por el usuario, pertenece o no al acento local de la costa atlántica colombiana.
Inicialmente, fue necesario crear una base de datos con voluntarios de acento de la costa atlántica y de otras regiones del país. Esta consiste en 13 personas de acento local y 6 personas de acento no local.
El desarrollo del software consistió de 2 etapas: una de entrenamiento y una de pruebas. En la primera etapa se extrajeron los vectores de características Mel Frequency Cepstral Coefficients(MFCC) y Linear Prediction Cepstral Coefficientes(LPCC) de una determinada cantidad de frases de la base de datos. Luego de esto, se produjeron los modelos de Gaussian Mixture Model(GMM) para las frases de ambos acentos; La segunda etapa(prueba) consistió en determinar qué tan preciso son los métodos implementados en el software para el reconocimiento del acento local: LPCC-GMM y MFCC-GMM y cuál de los dos es el mejor para la identificación del acento costeño local.
Por cada frase que se introduce al software se toma una decisión: posee o no acento local. Por ello, cada frase constituye una muestra. Para realizar la prueba de hipótesis se tomaron 50 muestras, escogiendo aleatoriamente 5 personas de acento local y 5 personas con acento no local de los audios destinados a pruebas. Se evidenció con un nivel de confianza del 95% que el rendimiento para LPCC-GMM está entre un 64.16% y 87.84%, y para MFCC-GMM está entre 40.19% y 67.81%. Con esto se concluye que entre estos dos métodos LPCC-GMM es el más idóneo para ser utilizado en nuestro sistema. The variations in the accents is one of the factors that affects the most the performance of the speech recognition systems. In Colombia, even though there is a great accents diversity, it has not been carried out a formal evaluation regarding the current methods for the accent automatic identification.
It is proposed the implementation of a tool, which allows to identify whether a recording belongs to the local accent from the Colombian atlantic coast.
Firstly, it was necessary to creat a database with volunteers who had the accent from the Colombian atlantic coast and from other regions of the country. This database contains recordings from 13 volunteers with local accent and 6 with no local accent.
The software development had 2 phases: training and testing. During the first phase, it was extracted the Mel Frequency Cepstral Coefficients(MFCC) and Linear Prediction Cepstral Coefficients(LPCC) vectors from a determined amount of phrases belonging to the database. Then, it was build the Gaussian Mixture Models (GMM) for the phrases of both accents; during the second phase it was calculated the accuracy levels of both methods: LPCC-GMM and MFCC-GMM in order to determine which of them was the best for the Atlantic coast accent.
Each sentence of input to the software, this makes a decision: whether it has the local accent or it does not. For testing, it was taken 50 samples, choosing randomly recordings of 5 people from local accent and 5 people from no local accent. It was found that with a confidence level of 95%, the accuracy for LPCC-GMM was between 64.16% and 87.84% and for MFCC-GMM it was between 40.19% and 67.81%. In conclusion, between the two implemented methods, LPCC-GMM is the best choice for our system.