masterThesis
Type-2 Fuzzy GMM para verificação de locutor independente de texto
Autor
VIEIRA, Sérgio Renan Ferreira
Institución
Resumen
Cada vez mais as corporações e instituições públicas desenvolvem aplicações móveis onde a segurança de autenticação é uma questão crítica. Sistemas biométricos são uma interessante abordagem, uma vez que usam características fisiológicas únicas de um indivíduo para autenticá-lo. A biometria de voz se destaca por não requerer o uso de transdutores adicionais em dispositivos móveis e por ter um modo de captura pouco incômodo para os usuários. Sistemas de autenticação que usam a voz de um usuário (locutor) sem levar em conta o que o mesmo diz são conhecidos como Sistemas de Verificação de Locutores Independente de Texto (SVLIT). Tais sistemas cadastram locuções para treinar o modelo de um locutor que será comparado posteriormente a uma locução de teste na autenticação. Os SVLIT, no entanto, estão sujeitos a operar com locuções de teste e treinamento capturadas em ambientes com níveis de ruído diferentes, aumentando a variabilidade intra-locutor e, consequentemente, diminuindo o desempenho. Esse tipo de discordância entre as locuções é conhecida como variabilidade de sessão. Este trabalho apresenta um novo SVLIT que lida com a variabilidade de sessão combinando o conhecido sistema de verificação GMM-UBM com a teoria de Conjuntos Nebulosos Tipo-2 (T2 FSs - Type-2 Fuzzy Sets) e uma metodologia de treinamento multicondicional. Consideramos que a variabilidade de sessão torna os parâmetros de um GMM incertos à medida que aumenta a discrepância entres os níveis de ruído de ambiente. Os T2 FSs e o GMM são combinados na abordagem conhecida como Type-2 Fuzzy GMM (T2 FGMM), utilizada em problemas de reconhecimento de padrão que usam GMMs cujos valores dos parâmetros são incertos dentro de um intervalo. Esse método, no entanto, exige o conhecimento prévio da amplitude do intervalo, ou seja, o grau de incerteza sobre os parâmetros. O SVLIT proposto utiliza o T2 FGMM realizando a estimação da incerteza. Para isso, foi utilizada uma metodologia de treinamento multicondicional com locuções ruidosas sintetizadas. Dessa maneira, o sistema é capaz de fazer a verificação sem conhecimento prévio do grau de ruído que as locuções de teste poderão ser expostas. Experimentos foram conduzidos com a base de dados MIT Device Speaker Recognition Corpus que é composta por locuções curtas (com uma média de 1,75 segundos de duração) gravadas através de um palmtop em três ambientes com níveis de ruído distintos: escritório silencioso, recepção de hotel e cruzamento de ruas ruidoso. O método proposto mostrou um ganho em Taxa de Erro Igual (EER - Equal Error Rate) de 24,11% comparado ao GMM-UBM, quando treinado com as locuções menos ruidosas e testado com as mais ruidosas. CNPq Corporations and public institutes develop mobile applications where the security for authentication is a critical issue. Biometric systems are an interesting approach since it uses unique physiological characteristics of an individual for authenticating her/him. The voice biometry stands out because it does not need using special transducers in mobile devices and because it is not considered threatening to provide. Authentication systems that use utterances of an user regardless what she/he said are called Text-Independent Speaker Verification Systems (TISVSs). Such systems register speeches to train a speaker model which will be compared to a test utterance in the authentication. TISVSs, nevertheless, are subjected to operate using test and training speeches that were captured in environments under different noise levels, increasing the intra-speaker variability and, hence, decreasing the performance. This type of discrepancy is known as session variability. This work presents a new TISVS which deals with the session variability by combining the well-known GMM-UBM system with the theory of type-2 fuzzy sets (T2 FSs) and a multicondition methodology. We consider that the session variability makes uncertain the GMM parameters as increase the difference between the noise levels. The T2 FSs and GMM are combined in the approach known as type-2 fuzzy GMM (T2 FGMM), which is used in pattern recognition that use GMMs with uncertain parameters. This method however requires the previous knowledge of the interval range, i. e., the level of uncertainty under the parameters. The proposed TISVS uses the T2 FGMM performing the the uncertainty estimation. For this reason, it was used a multicondition model training using noisy synthesized utterances. Hence, the system is able to perform the verification without previous knowledge about the noise level the test utterances might be exposed. Experiments were conducted using the MIT Device Speaker Recognition Corpus. that is composed of short utterances (in average 1.75 minutes of duration) recorded by a hand-held device in three environments with different noise levels: a quiet office, a lobby, and a busy street intersection. The proposed method achieved a gain in the Equal Error Rate (EER) of 24.11% compared to the GMM-UBM, when it is trained using the lowest noisy speeches and tested with the noisiest speeches.