TESIS
Indexación y reconocimiento de eventos de acción humana en base a la dinámica de rostros en contenido multimedia para arquitectura orientada a servicios
Fecha
2019-09-11Registro en:
Rodríguez Vázquez, Manuel Antonio. (2019). Indexación y reconocimiento de eventos de acción humana en base a la dinámica de rostros en contenido multimedia para arquitectura orientada a servicios. (Maestría en Ciencias en Sistemas Digitales). Instituto Politécnico Nacional, Centro de Investigación y Desarrollo de Tecnología Digital, México.
Autor
Rodríguez Vázquez, Manuel Antonio
Institución
Resumen
RESUMEN: En la última década se ha observado un crecimiento desmedido de contenido multimedia en Internet, un tema de creciente interés es la caracterización del contenido multimedia con respecto a la presencia de acciones humanas. La capacidad de clasificar diferentes tipos de acciones permite el desarrollo de una amplia gama de aplicaciones en el área de visión por computadora como: indexación de video basada acciones humanas, ayuda a operadores en sistemas de vigilancia, búsqueda de contenido multimedia, prevención y alerta de contenido. Cada aplicación debe ser capaz de detectar y reconocer varias acciones humanas basada en las variaciones de la acción. Dentro de este contexto, la figura humana es utilizada como el único punto de referencia para realizar la detección y el reconocimiento de acciones. Sin embargo, existe contenido audiovisual digital que exhibe eventos de acciones humanas masivas como manifestaciones, peleas, maratones, festejos, entre otros; en el cual, el análisis de la figura humana no es suficiente para detectar y reconocer las acciones humanas, esto se debe a las dificultades que presentan en el seguimiento de las figuras humanas como los traslapes entre éstas. El rostro es una región del cuerpo humano que notoriamente es visible en situaciones donde se presentan traslapes, puede ser un punto de referencia para la detección, el reconocimiento de acciones humanas y la prevención de acciones agresivas. La clasificación de acciones humanas mediante la dinámica del rostro es un problema que presenta varios desafíos para entornos en ambientes no controlados; dado que el proceso de detección del rostro debe ser robusto a cambios de iluminación y el seguimiento de uno o varios rostros imagen por imagen puede incluir cortes, cambios repentinos de apariencia, así como oclusiones duraderas, entre otros. En este trabajo de tesis se propone un modelo descriptivo basado en el contenido de video digital, para la indexación y reconocimiento de eventos de acción humana en base a la dinámica del rostro. Se realiza un estudio de los métodos de detección de características intrínsecas para la detección y seguimiento del rostro en ambientes no controlados, así como el análisis del procesamiento de la información para clasificar acciones. Este modelo consta de dos módulos; el módulo de extracción de características optimizadas mediante métodos de procesamiento de imágenes y el módulo de clasificación, generado a partir de la implementación de métodos de aprendizaje profundo. La integración de estos módulos conforma el modelo propuesto de este trabajo de tesis, el cual presenta un buen desempeño de indexación, reconocimiento y clasificación de eventos de acción humana utilizando el rostro como único punto de referencia.
ABSTRACT: Over the last decade there has been an excessive growth of multimedia content on the Internet, where a topic of growing interest is the characterization of multimedia content related to the presence of human actions. The ability to classify different types of actions allows the development of a wide range of applications in the area of computer vision, such as: video indexing based on human actions, support for operators in surveillance systems, search of multimedia content, prevention and warning of the type of content. Each application must be able to detect and recognize several human actions based on the variations of that action. Within this context, the human figure is used as the only point of reference to perfom detection and recognition of an action. However, there is digital audiovisual content that show events of massive human actions such demonstrations, fights, marathons, celebrations, among others; in which the analysis of the human figure is not sufficient for the detection and recognition of human actions, this is due to the difficulties in following human figures as overlaps between them exist. The human face is a region of the human body that is notoriously visible in situations where there are overlaps of human figures and it can be a point of reference for detecting and recognizing human actions, as well as for preventing aggressive actions. Human action classification through facial dynamics is a problem that present several challenges in uncontrolled environments; due to the fact that the human face detection process must be robust to changes in lighting and that tracking of one or several human face image by image may include cuts, sudden changes in appearance, occlusions, among others. In this thesis we propose a descriptive model based on the content of digital video, for indexing and recognition of human actions events based on facial dynamics. Methods for detection of intrinsic features for face detection and tracking in uncontrolled environments are studied, as well as information processing analysis for human action classification. This model consists of two modules; the module that extracts features optimized by methods of image processing and the classification module, generated by the implementation of deep learning methods. The integration of these modules form the proposed model of this thesis, which presents a good performance in indexing, recognition and classification of human action events using the human face as the point of reference.