Tesis
Identificação de ações humanas em vídeos utilizando descritor de fragmentos autônomos e predição multinível
Human action identification in videos using descriptor with autonomous fragments and multilevel prediction
Registro en:
Autor
Alcantara, Marlon Fernandes de, 1989-
Institución
Resumen
Orientador: Hélio Pedrini Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Avanços tecnológicos recentes têm provido dispositivos com alto poder de processamento e capacidade de armazenamento. Câmeras de vídeo podem ser encontradas em diversos locais, tais como bancos, escolas, supermercados, avenidas, interior de casas ou indústrias. Apesar deste potencial tecnológico, grande parte dos vídeos obtidos são apenas armazenados e nunca analisados. A flexibilidade do uso de câmeras e ferramentas computacionais permite sua aplicação em vigilância, planejamento estratégico, prevenção de crimes, verificação de linhas de manufatura, monitoramento de tráfego, entre outras áreas. O hardware das câmeras tem sido continuamente aprimorado, alcançando altas taxas de resolução e quadros por segundo. Contudo, a maior parte da análise de vídeos ainda é realizada por operadores humanos, cujo desempenho pode ser influenciado por fatores como a fadiga e o estresse. Na busca por alterar esse cenário atual, este trabalho propõe e avalia uma metodologia para identificação automática de ações humanas em vídeos por meio dos descritores CMSIP (Cumulative Motion Shape's Interest Points) aplicados em um esquema de predição em múltiplos níveis com retreinamento. A abordagem é construída por meio da divisão do descritor em partes que podem ser tratadas e interpretadas independentemente seguindo caminhos distintos no modelo de classificação, para que, em uma etapa posterior, fique a cargo de um mecanismo central decidir e reportar a ação que está sendo observada no vídeo. O método desenvolvido se mostrou rápido e com acurácia compatível ao estado da arte em bases públicas disponíveis na literatura, atingindo 90% nas bases Weizmann, KTH, MuHAVi e URADL, bem como 82,6% na base IXMAS. Além disso, o protótipo desenvolvido demonstrou-se uma ferramenta promissora para aplicações em tempo real Abstract: Recent technological advances have provided devices with high processing power and storage capacities. Video cameras are found in several places, such as banks, airports, schools, supermarkets, streets, homes and industries. Despite this technological potential, most of the acquired videos are only stored and never analyzed. The flexibility in the use of cameras and computational tools allows their application in areas such as surveillance, strategic planning, crime prevention, manufacturing, traffic monitoring, among others. Video equipments have continuously improved, achieving high resolution rates and frames per second. However, most of the video analysis tasks are still performed by human operators, whose performance may be influenced by factors such stress and fatigue. In order to change such current scenario, this work proposes and evaluates the development of a methodology for identifying common human actions in videos by means of a CMSIP descriptor (Cumulative Motion Shape's Interest Points) applied to a multilevel prediction scheme with retraining. The approach is built by dividing the descriptor into portions that can be considered and interpreted independently by following distinct ways on the classification model, such that, in a later step, a central mechanism will be responsible for deciding which action is being observed in the video sequence. Our method has proved to be fast and with accuracy compatible to the state-of-the-art on known public data sets available in the literature, achieving 90% on Weizmann, KTH, MuHAVi and URADL data sets, whereas 82.6% on IXMAS data set. Furthermore, the developed prototype demonstrated to be a promising tool for real-time applications Doutorado Ciência da Computação Doutor em Ciência da Computação 2012/20738-1 FAPESP CAPES