Algoritmo de segmentación de habla independiente de texto en uno y dos niveles

RICARDO SANCHEZ JURADO

info:eu-repo/semantics/masterThesis

Registro en:

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/563

https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805781

Autor

RICARDO SANCHEZ JURADO

Institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Resumen

Success in the performance of automatic speech recognition depends, among other issues, from an accurate segmentation of the input signal. Such signal may be divided by words, vowels or phonemes, the last being the most popular. Segmentation may be achieved using different techniques, some restricted by text or speaker and others free of restrictions. In this research we present a text and speaker-independent algorithm to obtain phonetic boundaries of a speech signal, using only acoustic features. The signal is divided into segments, called frames, small enough to be handled by coding algorithms as Mel Filter Banks or stationary wavelet transforms. Each feature is converted to a fuzzy representation in order to detect transitions among phonemes that, in other way, could not be clearly identified. In addition, we propose a modification in Euclidian and Chebishev distances to calculate feature distances using four adjacent frames. New strategies to select candidates for boundaries in one and two levels are also presented and analyzed. Genetic algorithms are used to optimize some parameters in the proposed algorithm. The algorithm was tested using two different corpuses, one in English and one in Spanish language. A correct segmentation of 80.28% was obtained for English and 82.58% for Spanish. This performance is similar to results obtained by other research works using English language.

El éxito en procesos como el reconocimiento automático del habla depende en gran manera de la segmentación del habla y su etiquetado, siendo la segmentación un factor muy importante. Existen diferentes esquemas para realizar la segmentación, algunos con restricciones (de texto o hablante) y otros sin restricciones (independiente de texto), además de tener diferentes unidades en que se segmenta el habla (palabras, sílabas, fonemas), dentro de las cuales, la unidad más común son los fonemas. En las técnicas sin restricciones, solo se usan características acústicas de la señal para obtener límites fonéticos sin tener alguna información adicional de ésta. Para realizar el proceso de segmentación, se divide la señal en pequeños fragmentos (frames) que puedan ser manejables, a los cuales se les extraen características usando métodos de codificación de la señal como son los Bancos de Filtros en la escala Mel y usando la Transformada Wavelet Estacionaria. Además por cada una de las características se obtienen valores de membresía a los conjuntos difusos Alto, Medio y Bajo, lo que permite detectar transiciones entre fonemas que no son muy claras. En esta tesis se trabajó en un algoritmo de segmentación de habla independiente de texto con diversas características, además se propone una nueva forma de calcular distancias entre características de cuatro frames adyacentes utilizando medidas de distancia como la Euclidiana o la Chebyshev. El análisis de estas distancias permite obtener las instancias de tiempo en las cuales existe un límite fonético, por lo que se definieron nuevas estrategias de selección de límites candidatos realizando la segmentación en uno y dos niveles. Para la segmentación en dos niveles se usaron Algoritmos Genéticos a fin de optimizar los parámetros del algoritmo. En este trabajo se utilizaron dos corpus, uno en inglés y otro en español, logrando 80.28% de detección correcta en el primer corpus y 82.58% en el segundo, este desempeño es comparado con trabajos similares de segmentación del idioma inglés.