masterThesis
Captura de movimento facial em tempo real para realidade aumentada
Registro en:
LUCENA, João Otávio Brandão Antunes de. Captura de movimento facial em tempo real para realidade aumentada. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
Autor
LUCENA, João Otávio Brandão Antunes de
Institución
Resumen
A Realidade Aumentada permite a adição de informações virtuais no mundo real por meio de sensores (como câmeras de vídeo). Uma possível maneira de se realizar o sensoriamento do mundo é através do reconhecimento de marcadores (como códigos 2D). Em contrapartida, algoritmos de detecção e rastreamento de características naturais – em tempo real – tornaram-se, há algum tempo, técnicas amplamente utilizadas e eficientes. O rastreamento de faces é um exemplo. Rastrear pontos de interesse da face, a pose da cabeça e expressões faciais permite o desenvolvimento de aplicações robustas em áreas como animação, jogos, entretenimento, vestuário, cosméticos, entre outras, sem a necessidade de rastrear qualquer elemento artificial. Nesse contexto, as abordagens mais recentes buscam realizar detecção e rastreamento facial 3D por meio de técnicas de aprendizagem de máquina, como redes neurais convolucionais. Tais técnicas são combinadas com algoritmos de reconstrução facial baseados em modelos ou malhas 3D com o objetivo de se obter uma modelagem simultânea da cabeça e captura de expressões faciais, em tempo real, possibilitando o aumento de faces. Contudo, algoritmos existentes na literatura ainda apresentam algumas falhas em certos cenários com movimento complexo e oclusões, devido a problemas em algumas etapas do processo, tanto no rastreamento quanto na reconstrução facial. Sendo assim, esta dissertação apresenta uma avaliação de técnicas recentes de rastreamento e modelagem facial 3D com a finalidade de propor melhorias e refinamentos. Para tal, foram desenvolvidas algumas abordagens utilizando imagens RGB e reconhecimento facial e, por fim, foi adotada uma técnica baseada em imagens de câmeras RGB-D e malha 3D genérica, desprovida de treinamento e/ou pré escaneamento da face. Posteriormente, foram desenvolvidas melhorias nas etapas de rastreamento e filtragem dos detalhes faciais, visando incrementar a qualidade nas etapas de cálculo da pose e modelagem facial, sem afetar significativamente o tempo de execução do algoritmo. Por fim, foram criados vários cenários para avaliação dos resultados, com movimentos de rotação vertical, inclinação lateral, extensão e flexão da cabeça, abruptos e não abruptos. Nestes cenários, os métodos propostos resultaram em claras melhorias na qualidade do alinhamento da malha 3D da face com as imagens de entrada, na captura das expressões faciais e na eliminação de deformações indesejadas no modelo das faces reconstruídos. A abordagem proposta também se mostrou mais robusta a falhas de rastreamento da face. CNPq Augmented reality allows the addition of virtual information to the real world through sensors (such as video cameras). One possible way of sensing the world is through the recognition of markers (such as 2D codes). In contrast, natural feature detection and tracking algorithms – in real-time – have long become widely applied and efficient techniques. Face tracking is an example. Tracking points of interest on the face, head pose and facial expressions allows the development of robust applications in areas such as animation, games, entertainment, clothing, cosmetics, etc., without need to track any artificial element. In this context, most recent approaches perform 3D facial detection and tracking through machine learning techniques, such as convolutional neural networks. These techniques are combined with facial reconstruction algorithms based on 3D models, or meshes, in order to obtain simultaneous head modeling and real-time facial motion capture, allowing face augmentation. However, existing approaches in the literature still fail in certain scenarios with complex movement and occlusions, due to problems in some stages of the process, in both facial tracking and reconstruction. Thus, this work aims to perform an evaluation of recent 3D facial tracking and modeling techniques in order to propose improvements and refinements. For such purpose, some approaches were developed using RGB images and facial recognition, and finally, a technique based on RGB-D cameras and generic 3D mesh, without need of training and/or pre-scanning, was adopted. After, improvements were developed in the tracking and facial detail filtering stages, aiming to increase the quality in the pose calculation and facial modeling steps, without significantly affecting the algorithm execution time. Finally, several scenarios were created to evaluate the results, with movements such as vertical rotation, lateral inclination, extension and flexion of the head, abrupt and non-abrupt. In these scenarios, the proposed methods resulted in clear improvements in the 2D-3D face alignment, in the facial motion capture and in the elimination of undesirable deformations on reconstructed face models. The proposed approach also proved to be more robust to face tracking failures.