Tese
Semantic Hyperlapse: a sparse coding based and multi-importance approach for first-person videos
Fecha
2019-07-02Autor
Michel Melo da Silva
Institución
Resumen
O surgimento de câmeras pessoais portáteis de baixo custo, combinado com a alta qualidade dos sensores e a quase ilimitada capacidade de armazenamento em sites de compartilhamento de vídeos despertou um crescente interesse pelos vídeos em primeira pessoa. Tais vídeos são geralmente compostos de gravações de longa duração sem qualquer edição, capturadas por um dispositivo acoplado ao corpo do gravador, o que os tornam tediosos e visualmente desagradáveis de assistir. Com isso, surgiu a necessidade de prover acesso rápido à informação neles contida. Para suprir essa necessidade, esforços vem sendo aplicados para o desenvolvimento de técnicas como Hyperlapse, na qual o objetivo é acelerar o vídeo em primeira pessoa criando um vídeo reduzido visualmente agradável de se assistir, e Hyperlapse Semântico, que além de acelerar o vídeo, cria ênfase em trechos importantes, dado algum critério de semântica previamente definido. Contudo, o método estado da arte em Hyperlapse Semântico, FFSE, negligencia o grau de importância da informação relevante, considerando apenas se a mesma é importante ou não. Outras limitações do método FFSE são o número de parâmetros, a escalabilidade no número de características visuais, e a mudança brusca nos fatores de aceleração entre segmentos de vídeo consecutivos. Nesta tese, propomos uma metodologia livre de parâmetros baseada em Codificação Esparsa para acelerar vídeos em primeira pessoa de forma adaptativa e enfatizar as partes relevantes através de uma abordagem multi-importância. O uso da abordagem proposta resultou na criação de vídeos reduzidos mantendo uma maior quantidade de informação semântica, com menos transições bruscas nas taxas de aceleração, e mais suaves em relação ao resultado do método FFSE.