Tesis
Alinhamento de imagens de profundidade com aplicação no reconhecimento da língua de sinais
Registro en:
SILVA JÚNIOR, Juarez Paulino da. Alinhamento de imagens de profundidade com aplicação no reconhecimento da língua de sinais. 2014. 82 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2014.
Autor
Silva Júnior, Juarez Paulino da
Institución
Resumen
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2014. Gestos são utilizados desde tempos remotos como um mecanismo natural de comunicação.Como elemento de exteriorização da cultura surda, as línguas de sinais (línguas gestuais) possuemum importante papel na formação de uma unidade social. Neste contexto, sistemas dereconhecimento automático das línguas de sinais podem ser valiosos instrumentos de integração,ao passo que atenuam as barreiras impostas e estreitam os laços culturais entre surdos e ouvintes.Recentemente, surgiram novas pesquisas nesta linha que utilizam os chamados sensores RGB-D.Estes sensores caracterizam-se por serem de baixo custo e fácil uso, além de permitirem aaquisição de imagens de profundidade em tempo-real. Por sua vez, estas imagens carregam informaçõesda localização espacial dos objetos da cena, simplificam tarefas de pré-processamentoe contribuem para a proposição de novas metodologias de reconhecimento. Este trabalho propõeum sistema de reconhecimento automático das 26 posturas estáticas representantes das letrasdos alfabetos manuais: da Língua de Sinais Americana (ASL), e da Língua Brasileira de Sinais(Libras). Para alcançar este objetivo, a metodologia do sistema emprega um sensor RGB-D nafase de aquisição de dados; e, de posse das imagens de profundidade, aplica a combinação da estratégia de Casamento de Modelos com o algoritmo de alinhamento Iterative Closest Point(ICP) na fase de reconhecimento. Como contribuição deste trabalho, a técnica ICP é aprimoradade forma a verificar possíveis parâmetros de entrada e saída no alinhamento de instâncias deteste com a base de modelos. Em seguida, utiliza estes parâmetros como determinantes daacurácia e eficiência do reconhecimento. Além disto, a estratégia de Casamento de Modelos é aperfeiçoada de forma a considerar partições de imagens aleatoriamente escolhidas das classes de modelos, visando reduzir o tempo de reconhecimento e aproximando a metodologia aos contextos de tempo-real. Os resultados apresentados mostram que o algoritmo ICP pode ser utilizado para produzir casamentos corretos entre as classes do alfabeto, mesmo quando um conjunto próximo (ambíguo) de posturas gestuais é aplicado. Quanto à acurácia da metodologia implementada, estes resultados indicam um desempenho máximo obtido de 99;04% de taxa de acerto no reconhecimento da ASL e de 99;62% para a Libras. Verificou-se ainda que o sistema atingiu seu melhor desempenho em eficiência com frequência média de processamento de 7;41FPS, utilizando uma máquina de processador único de 2,4 GHz. ________________________________________________________________________________ ABSTRACT Gestures are used since ancient times as a natural mechanism of communication. As anelement of externalisation of the deaf culture, sign languages (gestural languages) have animportant role in forming a social unit. In this context, automatic sign language recognitionsystems can be valuable tools of integration, while mitigating the barriers and strengtheningcultural ties between deaf and hearing people. Recently, new research has emerged in this areawhich uses the so called RGB-D sensors. These devices are characterized by the low cost andease of use, also allowing the depth image acquisition in real-time. In turn, these images carryinformation of the spatial location of the objects in the scene, simplify preprocessing tasks andcontribute to propose new recognition methodologies. This work proposes a system for automaticrecognition of the 26 static postures representatives of the letters in the manual alphabets of:the American Sign Language (ASL), and the Brazilian Sign Language (Libras). To achieve thisobjective, the system methodology employs an RGB-D sensor in the phase of data acquisition;and, once in possession of the depth images, applies the combination of the Template Matchingstrategy with the Iterative Closest Point (ICP) alignment algorithm in the recognition phase.As contributions of this work, the ICP technique is improved in order to verify possible inputand output parameters in the alignment of test instances with the model database. Then, it usesthese parameters as accuracy and efficiency determinants of the recognition. Moreover, theTemplate Matching strategy is enhanced to consider image partitions randomly chosen fromthe model classes, aiming time reduction of recognition and approaching the methodology toreal-time contexts. The presented results show that the ICP algorithm can be used to producecorrect matches between the alphabet classes, even when a close (ambiguous) set of sign posturesis applied. Regarding the accuracy of the implemented methodology, these results indicate amaximum performance of 99:04% of success rate in the ASL recognition and of 99:62% forLibras. It was also verified that the system reach its best efficiency performance with an averageprocessing frame frequency of 7:41 FPS, using a 2:4 GHz single processor based machine.