Tesis
Human action recognition in image sequences based on a two-stream convolutional neural network classifier
Fecha
2017-11-07Registro en:
SILVA, Vinícius de Oliveira. Human action recognition in image sequences based on a two-stream convolutional neural network classifier. 2017. xiii, 66 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2017.
Autor
Silva, Vinícius de Oliveira
Institución
Resumen
A evolução tecnológica nas últimas décadas contribuiu para a melhoria de computadores com excelente capacidade de processamento, armazenamento e câmeras com maior qualidade digital. Os dispositivos de geração de vídeo têm sido mais fáceis de manipular, mais portáteis e com preços mais baixos. Isso permitiu a geração, armazenamento e transmissão de grandes quantidades de vídeos, o que demanda uam forma de análise automática de informações, independente de assistência humana para avaliação e busca exaustiva de vídeos. Existem várias aplicações que podem se beneficiar de técnicas de inteligência computacional, tais como realidade virtual, robótica, telemedicina, interface homemmáquina, tele-vigilância e assistência aos idosos em acompanhamento constante. Este trabalho descreve um método para o Reconhecimento de Ações Humanas em sequências de imagens usando duas Redes (canais) Neurais Convolutivas (RNCs). O Canal Espacial é treinado usando quadros de uma sequência de imagens com técnicas de transferência de aprendizagem a partir da rede VGG16 (pré-treinada para classificação de objetos). O outro canal, Canal Temporal, recebe pilhas de Fluxo Óptico Denso (FOD) como entrada e é treinado com pesos inicais aleatórios. A técnica foi testada em dois conjuntos de dados públicos de ações humanas: Weizmann e UCF Sports. Na abordagem do Canal Espacial, conseguimos 84,44% de precisão no conjunto de dados Weizmann e 78,46% no conjunto de dados UCF Sports. Com os canais temporal e espacial combinados, obtivemos uma taxa de precisão de 91,11% para o conjunto de dados Weizmann. Mostramos que quadros estáticos pertencentes a uma certa sequência de imagens curiosamente possibilitam classificar a ação realizada em tal seqüência. Acreditamos que, uma vez que a rede VGG16 foi pré-treinada para um conjunto de dados de 1000 classes de objetos diferentes e algumas ações estão associadas a certos tipos de objetos, isso contribuiu significativamente para a aprendizagem da rede espacial. Isso indica que a técnica de transferência de aprendizado foi usada de forma eficiente para reconhecer ações humanas, usando uma rede previamente treinada para reconhecer objetos.