Dissertação (Mestrado)
Geração de mapas de profundidade utilizando redes neurais convolucionais
Autor
Masson, Juliano Emir Nunes
Institución
Resumen
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2021. A fotogrametria é um problema clássico de visão computacional e consiste na extração de informação tridimensional a partir de imagens. Ela pode ser descrita de maneira simplificada como sendo o processo de gerar um modelo 3D, de alguma cena capturada por duas ou mais imagens, de diferentes pontos de vista. A possibilidade de extrair a geometria de uma cena através de imagens permite uma vasta gama de aplicações, como a criação de ambientes virtuais para a simulação de robôs autônomos, a virtualização de ambientes reais para venda de imóveis, análise de deformação de superfícies, cálculo do deslocamento de barragens, monitoramento de erosões, planejamento e inspeção de construções, etc. Mesmo com o uso massivo de redes neurais em problemas clássicos de visão computacional mostrando um grande avanço quando comparados aos algoritmos tradicionais (principalmente em tarefas de reconhecimento de objetos), os principais softwares comerciais e bibliotecas de fotogrametria utilizados para as aplicações citadas anteriormente ainda não fazem uso de redes neurais. A partir dessa constatação, esse trabalho tem como objetivo estudar metodologias de geração de mapas de profundidade a partir de imagens de câmeras calibradas (matriz intrínseca e extrínseca conhecidas) utilizando redes neurais convolucionais. Para alcançar o objetivo foi feita uma revisão sistemática dos trabalhos da área, e com base nas estruturas das redes encontradas, foram propostas algumas modificações na rede CasMVSNet. Como a base da fotogrametria é encontrar correspondências entre as imagens, as modificações propostas focaram na etapa de extração de features, trocando as convoluções por convoluções deformáveis e deformáveis moduladas, permitindo uma maior adaptação da rede aos dados de entrada. Para os experimentos foram escolhidos três datasets, o DTU, Tanks and Temples e o BlendedMVS. Para o treinamento foram utilizados o DTU e o BlendedMVS, e para a avaliação quantitativa dos resultados o DTU e o Tanks and Temples. Dentre as modificações propostas, a dconv_todas treinada com o dataset DTU teve uma redução de 22% no consumo de memória gráfica, melhora na completude e na média do resultado quantitativo do DTU e uma pontuação média maior no Thanks and Temples, com uma penalidade de apenas 3.75% no tempo de processamento, em comparação a rede CasMVSNet original. Abstract: Photogrammetry is a classic computer vision problem and consists of extracting three-dimensional information from images. It can be simply described as the process of generating a 3D model of a scene captured by two or more images from different points of view. The possibility of extracting the geometry of a scene through images enables a wide range of applications, such as the creation of virtual environments for the simulation of autonomous robots, the virtualization of real environments for real estate sales, surface deformation analysis, calculation of dam displacement, erosion monitoring, planning and inspection of construction sites, etc. Even with the massive use of neural networks in classical computer vision problems showing a great advance when compared to traditional algorithms (especially in object recognition tasks), the main commercial softwares and photogrammetry libraries used for the aforementioned applications still do not make use of neural networks. Based on this finding, this work aims to study methodologies for generating depth maps from calibrated camera images (known intrinsic and extrinsic matrix) using convolutional neural networks. To achieve the goal, a systematic review of the works in the area was performed, and based on the structures of the networks found, some modifications to the CasMVSNet network were proposed. As the basis of photogrammetry is to find correspondences between images, the proposed modifications focused on the feature extraction step, changing the convolutions for deformable and modulated deformable convolutions, allowing a better adaptation of the network to the input data. For the experiments three datasets were chosen, the DTU, Tanks and Temples, and BlendedMVS. For training, DTU and BlendedMVS were used, and for quantitative evaluation of the results, DTU and Tanks and Temples were used. Among the proposed modifications, dconv_todas trained with the DTU dataset had a 22% reduction in graphics memory consumption, improved completeness and average quantitative DTU results, and a higher average score on Thanks and Temples, with a penalty of only 3.75% in processing time compared to the original CasMVSNet network.