tesis doctoral
Text-conditioned video action recognition under few shot and continual learning scenarios
Fecha
2023Registro en:
10.7764/tesisUC/ING/74160
Autor
Villa Ojeda, Andrés Felipe
Institución
Resumen
Los seres humanos aprenden continuamente nuevas actividades con pocos ejemplos sin olvidar las aprendidas previamente, aprovechando la información multimodal (VisualLenguaje). Sin embargo, las redes neuronales modernas para el reconocimiento de acciones son entrenadas por completo en extensos conjuntos de datos etiquetados, ignorando las descripciones textuales que vienen naturalmente con los videos. En aplicaciones reales, los métodos basados en aprendizaje profundo rara vez involucran una sola etapa de entrenamiento debido a la disponibilidad de datos, las cuotas de almacenamiento, las regulaciones de privacidad y los costosos procesos de anotación. En
su lugar, se les debe entrenar secuencialmente para manejar nuevos conjunto de acciones. Bajo estas condiciones, los métodos de aprendizaje profundo reducen significativamente el rendimiento en las acciones previamente aprendidas y requieren una gran cantidad de datos etiquetados. Estos problemas se abordan mediante aprendizaje continuo y Few-Shot learning, respectivamente. Few-Shot learning (FSL) y Aprendizaje continuo (CL) han sido poco explorados en el
dominio de video. En esta tesis abordamos ambos problemas. Primero, proponemos TNT, una red condicionada por texto con inferencia transductiva que explota las descripciones textuales para adaptar el conocimiento general de la red para mejorar la discriminación de clases en un escenario de FSL. En segundo lugar, presentamos a vCLIMB, un novedoso banco de pruebas estandarizado para analizar el olvido catastrófico de los modelos en un escenario de aprendizaje continuo en video. Asimismo, nuestra tercera solución, PIVOT, es una estrategia novedosa para CL en el dominio de video que aprovecha el conocimiento multimodal amplio y general de CLIP a través de un enfoque basado en prompting y un clasificador multimodal. Los métodos propuestos superan los modelos del estado del arte más desafiantes por un amplio margen en ambos escenarios, lo que demuestra que la información multimodal (video-texto) es esencial para aprender sin olvidar con pocas muestras etiquetadas.