doctoralThesis
Detecção de frequência fundamental baseada em mecanismos laríngeos
Autor
LACERDA, Everton Barbosa
Institución
Resumen
A detecção de frequência fundamental é uma das áreas mais antigas, relatadas e relevantes em processamento de sinais de voz. Isso ocorre porque ela é importante em várias aplicações (processamento, síntese ou codificação da voz). Muitos métodos foram propostos, porém, há possibilidades para melhorias, principalmente, no que diz respeito ao ajuste de seus parâmetros. Para permitir seu amplo espectro de frequência, a produção vocal é caracterizada por quatro configurações laríngeas distintas, chamadas de mecanismos laríngeos, sendo seus rótulos M0, M1, M2 e M3, em ordem crescente de possibilidade de produção de frequências, ou seja, do mais grave para o mais agudo. É conhecido que certas frequências que podem ser emitidas em dois mecanismos “vizinhos”, porém, outras, que só se observam em determinado mecanismo. Também se sabe que um parâmetro que afeta o desempenho dos algoritmos de detecção de frequência fundamental é o intervalo de busca, que é definido como a menor e maior frequência esperada para o sinal de entrada. Esses valores podem ser determinados por conhecimento prévio sobre a voz sob análise ou se usam valores padrão definidos na literatura. Devido à relação entre os mecanismos laríngeos e as frequências produzidas pela voz, esta Tese propõe empregar a identificação do mecanismo para otimizar o intervalo de busca na detecção de frequência. Isso é possível porque cada som é produzido em um mecanismo específico e, portanto, não se torna necessário usar um intervalo de frequência adequado para qualquer voz. A abordagem descrita na Tese apresenta a vantagem de utilizar uma medida intrínseca à produção vocal. Na literatura, a caracterização desses mecanismos é feita através do sinal eletroglotográfico (EGG) e sua derivada (DEGG), e não se conhece nenhum método automático para tal. Assim, além de propor otimizar os intervalos de busca apoiando-se nos mecanismos laríngeos, esta Tese apresenta um método para a classificação automática de mecanismos laríngeos baseado na análise de uma representação visual do sinal. Em mais detalhes, obtém-se o espectrograma, calculam-se as suas propriedades de textura, e essas medidas são usadas como características para a classificação. Os experimentos mostram que a informação de mecanismo laríngeo reduz os erros na detecção de frequência fundamental. Além disso, mostra-se que a classificação automática é efetiva, no que tange à classificação, chegando a uma taxa de 94,87%; e também para a detecção de frequência, pois apesar dos erros de classificação, a acurácia da detecção aumentou significativamente. Pitch extraction is one of the oldest, most reported and most relevant areas in speech processing. This assertion relies upon the fact that pitch extraction is a key component in several voice-related applications (processing, coding or synthesis). Several methods were proposed; however, there is room for further improvements, specially, when dealing with the fine-tuning of its parameters. In order to produce its wide frequency range, voice production is characterized by four distinct laryngeal displacements, called laryngeal mechanisms (their labels are M0, M1, M2 and M3, in frequency ascending order, i.e., from bass to treble). Certain frequencies can be emitted using two “neighboring” mechanisms; however, some frequencies can only be produced in a determinate mechanism. It is known that the frequency range (a common parameter that describes the minimum and maximum frequency that is expected for the input signal) affects the performance of pitch extraction methods. Due to the relation between laryngeal mechanisms and the frequencies produced by the voice, this Thesis proposes to employ laryngeal mechanisms to optimize the frequency range in pitch extraction. This is possible because each sound is produced using a specific mechanism and, therefore, it is not necessary to adopt the frequency range used to be adequate to any voice. The approach described herein is advantageous in the sense that it uses an intrinsic parameter of vocal production. At the literature, the characterization of these mechanisms is made by the electroglottographic signal (EGG) and its derivative (DEGG) and there is no automatic method to perform their identification. Therefore, besides proposing the optimization of frequency range based on laryngeal mechanisms, this Thesis also presents a method for the automatic classification of laryngeal mechanisms based on the analysis of a visual representation of the signal. Detailing, the spectrogram is obtained from the audio signal, its textural properties are calculated, and these measures are used as features for classification. In the experiments, we show that using laryngeal mechanism information decrease the errors in pitch extraction. Furthermore, we also show that the automatic classification is effective: when regarding the classification process itself, it reaches a hit rate equals to 94.87%; and considering its use in pitch extraction, despite of classification errors, we could increase the accuracy in pitch extraction significantly.