Segmentación del habla con independencia de texto para reconocimiento fonético

LUIS DAVID HUERTA HERNANDEZ

info:eu-repo/semantics/masterThesis

Registro en:

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/621

https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805839

Autor

LUIS DAVID HUERTA HERNANDEZ

Institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Resumen

Nowadays, Speech Technologies are considering with high importance the sub-words units like phonemes, because for the recognition process, these units reduce the model complexity, classification and storage of the languages information. The problem to solve in this Master Thesis is the phoneme speech segmentation with text independence. The problem consists on obtaining phoneme boundaries, from the speech wave without any kind of information known a priori, as it happens commonly with text. Although some related works have been reported oriented to carry out segmentation in sub-words, they have been tested under a set of restrictions as speaker independence [1] [2], text [3][4], vocabulary [5] [6], without continuos speech expressed naturally and without considering the over-segmentation [7]. Recently it was reported a method [8] avoiding all the previous restrictions mentioned, reach 73.58% of correct segmentation and a over-segmentation near to 0 %. Considering te existence of phoneme boundaries vaguely defined, the performances was increased by using fuzzy measures and different speech representations, obtaining major detail of some boundaries. The performance on the English language was increasing in 4% with respect to [8], and for Spanish language were detected approximately 80% of phoneme boundaries present on the speech signal.

Actualmente, en las Tecnologías del Habla se están considerando con mayor importancia las unidades de sub-palabras como los fonemas, puesto que para el proceso de reconocimiento estas unidades reducen la complejidad de modelado, de clasificación, y de almacenamiento de información de los lenguajes. El problema a resolver en esta Tesis de Maestría es la segmentación fonética del habla con independencia de texto. Este problema consiste en obtener las posiciones de las fronteras entre fonemas, a partir de la onda de habla sin el apoyo de ningún tipo de información conocida a priori, como lo es comúnmente el texto. Aunque se han reportado trabajos encausados a la segmentación en sub-palabras, estos han sido probados bajo una serie de restricciones como dependencia de hablante [1] [2], texto [3][4], vocabulario [5] [6], sin hacer uso de habla continúa expresada naturalmente y sin considerar la sobre- segmentación [7]. Recientemente se reporto un método [8] que suprime todas estas restricciones alcanzando una tasa de detecciones correctas de límites del 73.58% y una tasa de sobre-segmentación cercana al 0 %. Considerando que existen fronteras fonéticas vagamente definidas, el desempeño se incremento haciendo uso de medidas difusas y distintas representaciones del habla, obteniendo mayor detalle de esas fronteras. Para el idioma ingles se incrementó la tasa de detecciones correctas en un 4% respecto a [8], y para el idioma español, se detectaron aproximadamente un 80% de límites fonéticos presentes en la señal del habla.