info:eu-repo/semantics/masterThesis
Algoritmo de segmentación de habla independiente de texto en uno y dos niveles
Autor
RICARDO SANCHEZ JURADO
Resumen
Success in the performance of automatic speech recognition depends, among
other issues, from an accurate segmentation of the input signal. Such signal
may be divided by words, vowels or phonemes, the last being the most popular.
Segmentation may be achieved using different techniques, some restricted by
text or speaker and others free of restrictions.
In this research we present a text and speaker-independent algorithm to obtain
phonetic boundaries of a speech signal, using only acoustic features. The
signal is divided into segments, called frames, small enough to be handled by
coding algorithms as Mel Filter Banks or stationary wavelet transforms. Each
feature is converted to a fuzzy representation in order to detect transitions
among phonemes that, in other way, could not be clearly identified. In
addition, we propose a modification in Euclidian and Chebishev distances
to calculate feature distances using four adjacent frames. New strategies to
select candidates for boundaries in one and two levels are also presented and
analyzed. Genetic algorithms are used to optimize some parameters in the
proposed algorithm. The algorithm was tested using two different corpuses,
one in English and one in Spanish language. A correct segmentation of 80.28%
was obtained for English and 82.58% for Spanish. This performance is similar
to results obtained by other research works using English language. El éxito en procesos como el reconocimiento automático del habla depende
en gran manera de la segmentación del habla y su etiquetado, siendo la
segmentación un factor muy importante. Existen diferentes esquemas para
realizar la segmentación, algunos con restricciones (de texto o hablante) y
otros sin restricciones (independiente de texto), además de tener diferentes
unidades en que se segmenta el habla (palabras, sílabas, fonemas), dentro
de las cuales, la unidad más común son los fonemas. En las técnicas sin
restricciones, solo se usan características acústicas de la señal para obtener
límites fonéticos sin tener alguna información adicional de ésta. Para realizar
el proceso de segmentación, se divide la señal en pequeños fragmentos
(frames) que puedan ser manejables, a los cuales se les extraen características
usando métodos de codificación de la señal como son los Bancos de Filtros
en la escala Mel y usando la Transformada Wavelet Estacionaria. Además
por cada una de las características se obtienen valores de membresía a los
conjuntos difusos Alto, Medio y Bajo, lo que permite detectar transiciones
entre fonemas que no son muy claras. En esta tesis se trabajó en un
algoritmo de segmentación de habla independiente de texto con diversas
características, además se propone una nueva forma de calcular distancias
entre características de cuatro frames adyacentes utilizando medidas de
distancia como la Euclidiana o la Chebyshev. El análisis de estas distancias
permite obtener las instancias de tiempo en las cuales existe un límite fonético,
por lo que se definieron nuevas estrategias de selección de límites candidatos
realizando la segmentación en uno y dos niveles. Para la segmentación en
dos niveles se usaron Algoritmos Genéticos a fin de optimizar los parámetros
del algoritmo. En este trabajo se utilizaron dos corpus, uno en inglés y otro
en español, logrando 80.28% de detección correcta en el primer corpus y
82.58% en el segundo, este desempeño es comparado con trabajos similares
de segmentación del idioma inglés.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México
Luis Enrique García Barrios; Eduardo Bello Baltazar; Manuel Roberto Parra Vázquez