Trabalho de Conclusão de Curso
Desenvolvimento de sistema de reconhecimento de fala em plataforma embarcada
Registro en:
FREITAS, Wellington Lopes de. Desenvolvimento de sistema de reconhecimento de fala em plataforma embarcada. Orientador: Fabiano Tondello Castoldi. 2019. 81 p. Trabalho de Conclusão de Curso (Bacharel em Engenharia de Telecomunicações) - Universidade Federal do Pampa, Curso de Engenharia de Telecomunicações, Alegrete, 2019.
Autor
Freitas, Wellington Lopes de
Institución
Resumen
This work presents the design of an isoleted words and speak dependent automatic speech recognition system, implmented in a low-cost computer system using the general purpouse interpreted programming language Python®. In the development of this system, the signal processing stage was implemented using the end point detection technique, aiming detect
the beginning and end of an utterance; the technique used in the speech signal feature extraction was Mel frequency cepstral coefficients technique. The training and recognition stages were performed through the pattern comparison approach using Dynamic Time Warping -based techniques. For the system design, firstly, tests were performed in order to find out which configurations of the signal processing and recognition stages produced the best results in relation to the accuracy ratio and average runtime per word. In these tests, the best accuracy rate obtained for a vocabulary of 25 pre-recorded words was 96.8% with an average execution time per word of less than 2 seconds. After obtaining the optimum configuration of the system, new tests were performed, simulating its use in real situation, where the accuracy rate in the best case was 88.16%, with a decoding time per word of less than 2 seconds. Este trabalho apresenta o projeto de um sistema de reconhecimento de fala para palavras isoladas e dependente de locutor, implementado em um sistema computacional de baixo custo utilizando linguagem de programação interpretada de propósito geral Python®. No desenvolvimento desse sistema, o bloco de processamento de sinais é implementado utilizando a técnica Endpoint detection para a detecção do início e fim de uma locução, e na fase de extração de características do sinal de fala foi abordada a técnica de extração dos coeficientes cepstrais em escala de frequências Mel (Mel Frequency Cepstral Coefficients). O reconhecimento das palavras foi realizado através da abordagem por comparação de padrões, utilizando a técnica de distorção dinâmica do tempo (Dynamic Time Warping). Para o projeto do sistema, primeiro foram realizados testes com o objetivo de encontrar quais as configurações das etapas de processamento de sinais e reconhecimento produziam os melhores resultados em relação a taxa de acertos de palavras e tempo de execução médio por palavra. Nestes testes, a melhor taxa de acertos obtida para um vocabulário de 25 palavras pré-gravadas, foi de 96,8% com tempo médio de execução por palavra inferior a 2 segundos. Após a obtenção da configuração ótima do sistema, foram realizados novos testes, simulando o seu uso em situação real, onde a taxa de reconhecimento no melhor caso foi de 88,16%, com um tempo de reconhecimento por palavra inferior a 2 segundos.