tesis doctoral
Activity recognition in RGB-D videos using hierarchical and compositional energy-based models.
Fecha
2018Registro en:
10.7764/tesisUC/ING/23553
Autor
Lillo Vallés, Iván Alberto
Institución
Resumen
El reconocimiento de actividades humanas en videos ha ganado gran interés en los
últimos años. Varios métodos han sido propuestos, con diferente complejidad dependiendo
del largo temporal de los videos, la modalidad de captura para adquirirlos, y el número
de acciones ejecutadas por personas en una escena, entre otros. En este escenario, el reconocimiento
de actividades complejas ha emergido como un tópico de activa investigación,
ya que las personas pueden ejecutar múltiples acciones concurrentes tanto espacial como
temporalmente en la misma escena.
Esta tesis se enfoca en el reconocimiento de actividades complejas usando cámaras
RGB-D, las cuales poseen sensores de profundidad que permiten capturar video RGB (apariencia)
e información de profundidad en tiempo real en ambientes de interior (indoor). La
estimación de pose 3D de las articulaciones de un cuerpo humano (esqueleto) está incluido
en el software proveído por estos dispositivos, lo que ha hecho aumentar la investigación
basada en poses 3D de esqueletos.
Nuestro foco es el reconocimiento de actividades complejas, compuestas de acciones
atómicas secuenciales y/o simultáneas, las que a su vez están compuestas por poses y
movimientos de bajo nivel, enfocando el modelo en los movimientos de un sólo actor a la
vez.
Nuestra contribución es la creación de un modelo jerárquico-composicional en tres niveles
de abstracción. En el nivel inferior, características geométricas y de movimiento son
usadas para aprender automáticamente un diccionario de poses, cuyas entradas son usadas
para codi car segmentos temporales de acciones atómicas a nivel de cuadro de video. En el
nivel intermedio, composiciones de elementos del diccionario de poses, por separado en cada
región de finida del cuerpo, son usadas para representar acciones atómicas, con una acción
distinta para cada región, y donde además cada región se representa como una secuencia
temporal de una o varias acciones atómicas. Finalmente, en el nivel superior, composiciones
espaciales y temporales de acciones atómicas son ensambladas para representar actividades
complejas, donde una actividad compleja es asignada a cada video.
El proceso de aprendizaje de los parámetros del modelo es planteado como una optimización de función de energía, usando una formulación de máximo margen, donde cada
pose y acción atómica es modelada como un clasi ficador lineal.
Se presenta en esta tesis un modelo jerárquico base, el cual obtiene resultados satisfactorios
en una base de datos de actividades complejas (Composable Activities Dataset).
Adicionalmente, numerosas mejoras al modelo base son introducidas: (i) un cambio en representacióon de los clasi ficadores lineales de las acciones atómicas, que producen clasi ficadores
ralos, donde las poses se especializan en pocas acciones atómicas; (ii) desde el video RGB,
se extraen características de movimiento dentro de un pequeño lapso temporal, el cual se
añade a las características geométricas del modelo base; (iii) se elabora una formulación
alternativa más escalable, que no necesita de anotaciones espaciales de acciones atómicas,
conservando sólo la supervisión temporal durante el entrenamiento; (iv) un modelo que incorpora flexibilidad de ejecución de poses y acciones atómicas, introduciendo motion poselets
y actionlets; y (v) mecanismo para descartar poses no informativas, lo cual incrementa la
robustez a errores comunes de estimación de pose.
Los experimentos realizados muestran los benefi cios de usar un enfoque jerárquico que
utiliza la composición de poses en acciones atómicas, y éstas en actividades complejas.
En particular, el modelo resultante es capaz de identi ficar los intervalos temporales y las
regiones espaciales donde ocurren las acciones atómicas, teniendo la interesante propiedad de que la salida del modelo provee de información intermedia semántica, en conjunto con
una clasi ficación de la actividad del video completo en el nivel superior.
El rendimiento de los métodos propuestos es evaluado usando múltiples bases de datos
de reconocimiento de acciones. El modelo propuesto supera consistentemente modelos del
estado del arte para reconocimiento de acciones complejas, mostrando cómo un modelo
jerárquico y composicional es clave para inferir interacciones complejas usando representaciones
semánticas simples como bloques constitutivos, que en nuestro caso son las poses
inferidas y las acciones atómicas.