Human action identification in videos using descriptor with autonomous fragments and multilevel prediction

dc.creatorAlcantara, Marlon Fernandes de, 1989-
dc.date2015
dc.date2015-04-12T00:00:00Z
dc.date2017-04-03T02:02:46Z
dc.date2017-06-09T15:05:13Z
dc.date2017-04-03T02:02:46Z
dc.date2017-06-09T15:05:13Z
dc.date.accessioned2018-03-29T02:17:57Z
dc.date.available2018-03-29T02:17:57Z
dc.identifierALCANTARA, Marlon Fernandes de. Identificação de ações humanas em vídeos utilizando descritor de fragmentos autônomos e predição multinível. 2015. 1 recurso online ( 81 p.). Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.bibliotecadigital.unicamp.br/document/?code=000961780>. Acesso em: 2 abr. 2017.
dc.identifierhttp://repositorio.unicamp.br/jspui/handle/REPOSIP/275591
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/1313802
dc.descriptionOrientador: Hélio Pedrini
dc.descriptionTese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação
dc.descriptionResumo: Avanços tecnológicos recentes têm provido dispositivos com alto poder de processamento e capacidade de armazenamento. Câmeras de vídeo podem ser encontradas em diversos locais, tais como bancos, escolas, supermercados, avenidas, interior de casas ou indústrias. Apesar deste potencial tecnológico, grande parte dos vídeos obtidos são apenas armazenados e nunca analisados. A flexibilidade do uso de câmeras e ferramentas computacionais permite sua aplicação em vigilância, planejamento estratégico, prevenção de crimes, verificação de linhas de manufatura, monitoramento de tráfego, entre outras áreas. O hardware das câmeras tem sido continuamente aprimorado, alcançando altas taxas de resolução e quadros por segundo. Contudo, a maior parte da análise de vídeos ainda é realizada por operadores humanos, cujo desempenho pode ser influenciado por fatores como a fadiga e o estresse. Na busca por alterar esse cenário atual, este trabalho propõe e avalia uma metodologia para identificação automática de ações humanas em vídeos por meio dos descritores CMSIP (Cumulative Motion Shape's Interest Points) aplicados em um esquema de predição em múltiplos níveis com retreinamento. A abordagem é construída por meio da divisão do descritor em partes que podem ser tratadas e interpretadas independentemente seguindo caminhos distintos no modelo de classificação, para que, em uma etapa posterior, fique a cargo de um mecanismo central decidir e reportar a ação que está sendo observada no vídeo. O método desenvolvido se mostrou rápido e com acurácia compatível ao estado da arte em bases públicas disponíveis na literatura, atingindo 90% nas bases Weizmann, KTH, MuHAVi e URADL, bem como 82,6% na base IXMAS. Além disso, o protótipo desenvolvido demonstrou-se uma ferramenta promissora para aplicações em tempo real
dc.descriptionAbstract: Recent technological advances have provided devices with high processing power and storage capacities. Video cameras are found in several places, such as banks, airports, schools, supermarkets, streets, homes and industries. Despite this technological potential, most of the acquired videos are only stored and never analyzed. The flexibility in the use of cameras and computational tools allows their application in areas such as surveillance, strategic planning, crime prevention, manufacturing, traffic monitoring, among others. Video equipments have continuously improved, achieving high resolution rates and frames per second. However, most of the video analysis tasks are still performed by human operators, whose performance may be influenced by factors such stress and fatigue. In order to change such current scenario, this work proposes and evaluates the development of a methodology for identifying common human actions in videos by means of a CMSIP descriptor (Cumulative Motion Shape's Interest Points) applied to a multilevel prediction scheme with retraining. The approach is built by dividing the descriptor into portions that can be considered and interpreted independently by following distinct ways on the classification model, such that, in a later step, a central mechanism will be responsible for deciding which action is being observed in the video sequence. Our method has proved to be fast and with accuracy compatible to the state-of-the-art on known public data sets available in the literature, achieving 90% on Weizmann, KTH, MuHAVi and URADL data sets, whereas 82.6% on IXMAS data set. Furthermore, the developed prototype demonstrated to be a promising tool for real-time applications
dc.descriptionDoutorado
dc.descriptionCiência da Computação
dc.descriptionDoutor em Ciência da Computação
dc.description2012/20738-1
dc.descriptionFAPESP
dc.descriptionCAPES
dc.format1 recurso online ( 81 p.) : il., digital, arquivo PDF.
dc.formatapplication/octet-stream
dc.publisher[s.n.]
dc.relationRequisitos do sistema: Software para leitura de arquivo em PDF
dc.subjectVisão por computador
dc.subjectDescritores
dc.subjectReconhecimento de padrões
dc.subjectProcessamento de imagens
dc.subjectComputer vision
dc.subjectDescriptors
dc.subjectPattern recognition
dc.subjectImage processing
dc.titleIdentificação de ações humanas em vídeos utilizando descritor de fragmentos autônomos e predição multinível
dc.titleHuman action identification in videos using descriptor with autonomous fragments and multilevel prediction
dc.typeTesis


Este ítem pertenece a la siguiente institución