Tese
Correspondência entre pessoas em uma rede de câmeras de vigilância
Fecha
2019-03-29Autor
Raphael Felipe de Carvalho Prates
Institución
Resumen
O número de redes de câmeras de vigilância é cada vez maior como consequência da crescente preocupação com segurança. A grande quantidade de dados coletados demanda sistemas de vigilância inteligentes para extrair informações que sejam úteis aos oficiais de segurança. De forma a alcançar esse objetivo, esse sistema deve ser capaz de correlacionar as informações capturadas por diferentes câmeras de vigilância. Nesse cenário, a re-identificação de pessoas é de central importância para estabelecer uma identidade global para indivíduos capturados por diferentes câmeras usando apenas a aparência visual. No entanto, trata-se de uma tarefa desafiadora, uma vez que a mesma pessoa quando capturada por câmeras distintas sofre uma drástica mudança de aparência como consequência das variações no ponto-de-vista, iluminação e pose. Trabalhos recentes abordam a re-identificação de pessoas propondo descritores visuais robustos ou funções de correspondência entre câmeras, as quais são funções que aprendem a calcular a identidade correta de imagens capturadas por diferentes câmeras. Porém, a maior parte desses trabalhos é prejudicada por problemas como ambiguidade entre indivíduos, a escalabilidade e o número reduzido de imagens rotuladas no conjunto de treino. Nesta tese, abordamos o problema de correspondência de indivíduos entre câmeras de forma a tratar os problemas já mencionados e, portanto, obter melhores resultados. Especificamente, propomos duas direções: o aprendizado de subespaços e os modelos de identificação indireta. O primeiro aprende um subespaço comum que é escalável com respeito ao número de câmeras e robusto em relação à quantidade de imagens de treino disponíveis. Na identificação indireta, identificamos imagens de prova e galeria baseado na similaridade com as amostras de um conjunto de treino. Resultados experimentais validam ambas as abordagens no problema de re-identificação de pessoas considerando tanto apenas um par de câmeras como situações mais realísticas com múltiplas câmeras.