Dissertação
Filter learning from deep descriptors of fully convolutional siamese network for tracking in videos
Autor
Chaves, Hugo Aparecido de Lima França
Institución
Resumen
In recent years, the advancement of Deep Learning has revolutionized many areas in
Computer Vision, including Visual Object Tracking. A particular type of deep neural
network, the Siamese Neural Network, brought the attention of Visual Object Tracking
community. This neural network has a relatively low computational cost, and high e -
cacy framework used to compare the similarity between objects. Nowadays, the scienti c
community achieved remarkable success applying such frameworks in the tracking problem.
However, the limitations this neural network impact negatively in its performance.
We overcome this problem by obtaining a new descriptor for the reference object combining
past descriptors outputted from the tracker. Speci cally, we propose a combination
of the signal of descriptors in long and short term memory blocks, which represent the
rst and the recent appearance of the object, respectively. A nal descriptor is composed
of such memory blocks, and the tracker uses it as a reference. In particular, this work
emphasized in the obtention of a method to compute an optimized lter bank through
the usage of a genetic algorithm. The lter bank is then used to compute the short term
memory output. According to experiments performed in the widely used OTB dataset,
our proposal improves the baseline performance. The improvements for the area under
the curve metrics are 7.4% and 3.0%, for precision and success plots, respectively, being
comparable to the state-of-the-art methods. Nos ultimos anos, os avancos em Aprendizado Profundo revolucionaram diversas sub-
areas da Visao Computacional, incluindo o Rastreamento de Objetos Visuais. Um tipo especial
de rede neural profunda, a Rede Neural Siamesa, chamou a atencao da comunidade
especializada em rastreamento. Ela possui baixo custo computacional e alta efi cacia para
comparar a similaridade entre objetos. Atualmente, a comunidade cienti ca atingiu resultados
notaveis ao aplicar tais redes ao problema de Rastreamento de Objetos Visuais.
No entanto, observou-se que limitacoes dessa rede neural impactam negativamente no rastreamento.
Superou-se o problema ao se obter um novo descritor para referencia do objeto
combinando descritores passados fornecidos pelo rastreador. Em particular, foi proposto
a combinacao de sinal de descritores em blocos de memorias de longo e de curto prazo,
os quais representam a primeira e a mais recente aparencia do objeto, respectivamente.
Um descritor nal e gerado a partir desses blocos de memoria, o qual o rastreador usa
como referencia. Este trabalho enfatizou-se na obtencao de um metodo para calcular um
banco de ltros otimizado atraves do uso de um algoritmo genetico. O banco de ltros
e utilizado entao para gerar a saida da memoria de curto prazo. De acordo com experimentos
realizados na base de dados OTB, esta proposta apresenta ganhos em comparacao
com a proposta original da SiamFC. Considerando a metrica area abaixo da curva, ha
ganhos de 7.4% e 3.0% para os gra cos de precisao e sucesso, respectivamente, tornando
este trabalho comparavel a metodos do estato da arte.