Tesis
Diseño de la arquitectura de un sistema empotrado para el control de un brazo robótico mediante comandos de voz
Autor
Gonzalez Cadenillas, Clayder Alejandro
Institución
Resumen
Currently, the field of automatic speech recognition is being widely used in commercial electronic devices such as TVs, phones, game consoles and computers. However, usually this technique is implemented on powerful digital signal processors (DSP) o microprocessors, which are very expensive. This research aims to implement this kind of technology locally, but using more affordable devices, such as the microcontrollers.
Thus, this article presents an evaluation of different isolated words recognition techniques on an embedded system evaluated under 4 different microcontrollers: PIC16F877A, PIC18F4550, dsPIC30F4013 and finally dsPIC33EP256GP502. So, the feature extraction phase is based on an adaptation of the Mel Frequency Cepstral Coefficients (MFCC) and the automatic recognition phase is based on the following techniques: Dynamic Time Warping (DTW), Artificial Neural Networks (ANN) and Principal Component Analysis (PCA). Related to the experiments setup, voice commands were evaluated in 3 different scenarios and the best accuracy rate was reached with a combination of PCA, for dimensionality reduction, and ANN for the recognition. The microcontroller with the best response time was the dsPIC33EP256GP502. It is also important to note that this implementation was carried out with the capacity constraints of the mentioned integrated circuits.
Keywords: Automatic speech recognition, microcontroller, mel frequency, cepstral coefficients, dynamic time warping, artificial neural network, principal components analysis Actualmente, el campo del reconocimiento automático del habla está siendo bastante usado en dispositivos electrónicos como televisores, celulares, consolas de videojuegos y computadoras. Sin embargo, usualmente esta técnica esta implementada sobre potentes procesadores de señales digitales (DSP) o microprocesadores, los cuales tienen un precio bastante alto. Esta investigación sugiere la posibilidad de diseñar este tipo de tecnología en el mercado local pero usando dispositivos con precios más accesibles como son los microcontroladores.
Así pues, este proyecto está basado en la evaluación de diferentes técnicas para el reconocimiento de palabras aisladas implementado en un sistema empotrado que fue evaluado bajo 4 diferentes microcontroladores de bajo costo: PIC16F877A, PIC18F4550, dsPIC30F4013 y finalmente dsPIC33EP256GP502. La evaluación de los microcontroladores estuvo en función a la fase extracción de características, la cual se hizo usando una adaptación de los Coeficientes Cepstrales en la Frecuencia de Mel (MFCC) y la fase de reconocimiento automático que se basó en las siguientes técnicas: Alineamiento Temporal Dinámico (DTW), Redes Neuronales Artificiales (RNA) y Análisis de componentes principales (PCA). En relación a la configuración de los experimentos los comandos de voz fueron evaluados en 3 diferentes escenarios y la mejor tasa de precisión fue lograda con una combinación de PCA, para la reducción de dimensiones, y RNA para el reconocimiento. El microcontrolador con el mejor tiempo de respuesta fue el dsPIC33EP256GP502; sin embargo, es importante resaltar que la implementación de los algoritmos fueron llevados a cabo con las restricciones de capacidad y de procesamiento de los circuitos antes mencionados Tesis