Tesis
Codificador G729a orientado à avaliação da qualidade perceptual do sinal de voz
Fecha
2011Autor
Fagundes, Rubem Dutra Ribeiro
Resumen
This thesis presents a model that evaluates the perceptual quality of the enconding voice, using a parametric encoder defined by the ITU-T Recommendation G729a, technically known as Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP). Currently the voice coding is evaluated by subjective parameters, where there is a perceptual analysis to improve the parameters that change dynamically. The objective of this study is improvement in the performance of the coded signal source, considering the limitations of working with the codec scalar variables. An analysis of the speech signals to improve input to the reader, allowing for better understanding and a theoretical description of the encoder G729a, emphasizing the stages of encoding scalar parameters, object of this study. The PESQ algorithm has been inserted into the coder, which by these means performs a perceptually based analysis of the speech signal. In so doing, we have also analyzed thoroughly ITU-T Recommendation P. 862 describing an algorithm for objectively evaluating perceptual speech quality. To validate the proposed methodology, test were performed for comparison which speech signals from the Timit database for studying the improvement in coded speech quality after the perceptual improvement algorithm applied to the scalar parameters in coding In the experiment, was performed in modified CS-ACELP coder using a perceptual analysis considering the evaluation of the PESQ algorithm for decision to operate on the encoding, resulting in higher quality signals to users, ensuring the stability of 72. 41% and 50. 38% of the frames better evaluated by PESQ. There was change in the pitch gain, without changing the essence of the codec. Esta dissertação apresenta um modelo de codificador da voz que avalia a qualidade perceptual, utilizando-se um codificador paramétrico definido pela Recomendação do ITU-T, o G729a, conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP). Atualmente, a codificação de voz é avaliada por parâmetros subjetivos, em que não há uma análise para melhoria perceptual que altere os parâmetros dinamicamente. O objetivo deste trabalho é a melhoria no desempenho do sinal codificado na fonte, considerando as limitações de trabalhar com as variáveis escalares do codec. Foi realizada uma análise sobre os sinais de voz para dar subsídios ao leitor, possibilitando o entendimento teórico e uma descrição sobre o codificador G729a, enfatizando os estágios de codificação dos parâmetros escalares, objeto deste estudo. Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a análise perceptual do sinal de voz. Também foi avaliada recomendação P. 862 do ITU-T que descreve o algoritmo de avaliação da qualidade perceptual. Para validar a metodologia proposta, foram realizados experimentos em sinais de voz do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria perceptual devido à alteração dos parâmetros escalares de codificação do sinal. No experimento realizado, foi realizada a modificação no codificador CS-ACELP com a utilização de uma análise perceptual ponderando a avaliação do algoritmo do PESQ para decisão de atuação sobre a codificação, o que resultou em sinais de maior qualidade para os usuários, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados pelo PESQ. Houve alteração no ganho de pitch, sem a modificação da essência do codec.