doctoralThesis
FERAtt : new architecture learning for facial expression characterization
Registro en:
FERNÁNDEZ, Pedro Diamel Marrero. FERAtt: new architecture learning for facial expression characterization. 2019. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
Autor
FERNÁNDEZ, Pedro Diamel Marrero
Institución
Resumen
Affective computing is a branch of artificial intelligence responsible for the development of equipment and systems capable of interpreting, recognizing and processing human motions. The automatic understanding of human behavior is of great interest since it allows the creation of new human-machine interfaces. Within this behavior, facial expressions are the most convenient because of the wide range of emotions that can be transmitted. The human face conveys a large part of our emotional behavior. We use facial expressions to demonstrate our emotional states and to communicate our interactions. In addition, we express and read emotions through the expressions of faces without effort. However, automatic understanding of facial expressions is a task not yet solved from the computational point of view, especially in the presence of highly variable expression, artifacts, and poses. Currently, obtaining a semantic representation of expressions is a challenge for the affective computing community. This work promotes the field of facial expression recognition by providing new tools for the representation analysis of expression in static images. First, we present an analysis of the methods of extracting characteristics and methods of combining classifiers based on sparse representation applied to the facial expression recognition problem. We propose a system of multi-classifiers based on trainable combination rules for this problem. Second, we present a study of the main deep neural networks architectures applied in this problem. A comparative analysis allows to determine the best models of deep learning for the classification of facial expressions. Third, we propose a new supervised and semi-supervised representation approach based on metric learning. This type of approach allows us to obtain semantic representations of the facial expressions that are evaluated in this work. We propose a new loss function that generates Gaussian structures in the embedded space of facial expressions. Lastly, we propose FERAtt, a new end-to-end network architecture for facial expression recognition with an attention model. The FERAtt neuralnet focuses attention in the human face and uses a Gaussian space representation for expression recognition. We devise this architecture based on two fundamental complementary components: (1) facial image correction and attention and (2) facial expression representation and classification. FACEPE Computação afetiva é um ramo da inteligência artificial responsável pelo desenvolvimento de equipamentos e sistemas capazes de interpretar, reconhecer e processar emoções humanas. A compreensão automática do comportamento humano é de grande interesse, já que permitiria a criação de novas interfaces homem-máquina. O rosto humano transmite uma grande parte do nosso comportamento emocional. Usamos expressões faciais para demonstrar emoções e para melhorar nossas interações sem esforço, devido a que as expressões são um reflexo incorporado a nosso mecanismo de comunicação. No entanto, a compreensão automática das expressões faciais é uma tarefa ainda não solucionada do ponto de vista computacional, especialmente na presença de expressão altamente variável, artefatos e poses. Atualmente, obter uma representação semântica de expressões faciais é um desafio para a comunidade de computação afetiva. Este trabalho promove o campo do reconhecimento da expressão facial, fornecendo novas ferramentas para a análise de expressão em imagens estáticas a partir do estudo da representação no espaço de características. Em primeiro lugar, apresentamos uma revisão dos principais métodos de extração de características e dos métodos de combinação de classificadores com base em representação escassa que são aplicadas aos problemas de reconhecimento de expressão facial. Propomos um sistema de multi-classificadores baseado em regras de combinação treináveis para a classificação das expressões faciais. Em segundo lugar, apresentamos um estudo das principais arquiteturas de redes neurais profundas aplicadas neste problema. Uma análise comparativa nos permite determinar os melhores modelos de aprendizagem profunda para a classificação das expressões. Em terceiro lugar, propomos uma nova abordagem supervisionada e semi-supervisionada de representação baseada na aprendizagem por métrica. Este tipo de abordagem nos permite obter representações semânticas das expressões faciais que são avaliadas neste trabalho. Propomos uma nova função de perda que geram estruturas Gaussianas no espaço de representação. Finalmente, propomos FERAtt, uma nova arquitetura de rede ponta-a-ponta para o reconhecimento de expressões faciais com um modelo de atenção. A rede FERAtt, concentra a atenção no rostro humano e usa uma representação do espaço Gaussiano para reconhecimento de expressão. Concebemos essa arquitetura com base em dois componentes fundamentais: (1) correção e atenção à imagem facial; e (2) representação e classificação da expressão facial.