Tesis Magíster
Multimodal image registration between vis, swir and lwir images on special-purpose hardware
Registro multimodal de imágenes vis, swir y lwir en hardware dedicado
Autor
Cárdenas Drews, Javier Alfredo
Institución
Resumen
Image registration is defined as the process of aligning images of the same scene captured under different conditions. When these images correspond to different spectra, it's called multimodal registration. The registration process is based on finding a geometric transformation that allows projecting a objective image on the coordinate space of a reference image, obtaining a point-to-point correspondence between them. The registration consists of four components: characteristics space, similarity measure, search space, and search strategy. Multimodal registration allows to appreciate complementary information about a scene, enabling the use of more powerful and robust image analysis techniques, but due to the complexity of the algorithms this alignment is typically done in general purpose computers, which entails a high use of energy, time, and space compared to the devices used for image acquisition. In this work, a multimodal registration algorithm was designed between visible (Vis), shortwave infrared (SWIR) and longwave infrared (LWIR) images, composed of an initial calibration phase and a frame-by-frame registration process. The algorithm uses a modified version of histogram of oriented gradients (HOG) as feature extractor, Chi-square distance as similarity measure to match them, and projective transformation in conjunction with bilinear interpolation to register the images. A software/hardware heterogeneous architecture of the proposed algorithm was designed, executing the calibration phase in the software core and the frame-by-frame registration process in the hardware core, with a proposed experimental setup that integrates a Vis, SWIR and LWIR cameras, each one with its own processing core, registering the Vis-SWIR and SWIR-LWIR images as they are obtained by the different acquisition devices. The system was implemented in a Zynq XC7Z020 system-on-a-chip (SoC) from Xilinx. The prototype executes separately the initial calibration phase and the frame-by-frame registration process in the embedded processor and programmable logic respectively. The calibration phase includes the extraction and matching of characteristics in conjunction with the calculation of parameters of the transformation. The frame-by-frame registration process applies the transformation and interpolation to each frame of the objective image. The hardware core can operate at more than 60fps in 640×512 pixel images at a clock frequency of 66.6MHz, using 20% of the logical resources and about 55% of the SoC's memory resources. The system consumes 1.888W of power, of which 1.541W corresponds to the power consumed by the processor and only 0.180W to the registration core implemented in hardware. El registro de imágenes se define como el proceso de alinear imágenes de una misma escena capturadas bajo diferentes condiciones. Cuando estas imágenes corresponden a distintos espectros se denomina registro multimodal. El proceso de registro se basa en encontrar una transformación geométrica que permita proyectar la imagen objetivo sobre el espacio de coordenadas de la imagen de referencia, obteniendo una correspondencia punto a punto entre ellas. El registro consta de cuatro componentes: espacio de características, medida de similitud, espacio de búsqueda, y estrategia de búsqueda. El registro multimodal permite apreciar información complementaria sobre una escena, habilitando la utilización de técnicas de análisis de imágenes más potentes y robustas, pero debido a la complejidad de los algoritmos este alineamiento se realiza típicamente en computadores de propósito general, lo que conlleva un alto uso de energía, tiempo, y espacio en comparación a los dispositivos usados para la adquisición de imágenes. En este trabajo se diseñó un algoritmo de registro multimodal entre imágenes visible (Vis), infrarrojo de onda corta (SWIR) e infrarrojo de onda larga (LWIR) compuesto de una fase de calibración inicial y un proceso de registro cuadro a cuadro. El algoritmo utiliza una versión modificada de histograma de gradientes orientados (HOG) como extractor de características, la medida de similitud Chi-cuadrado para emparejarlas, y transformación proyectiva en conjunto con interpolación bilineal para registrar las imágenes. Se diseñó una arquitectura heterogénea software/hardware del algoritmo propuesto, ejecutando la fase de calibración en el núcleo software y el proceso de registro cuadro a cuadro en el núcleo hardware, con un montaje experimental propuesto que integra una cámara Vis, SWIR y LWIR, cada una con su propio núcleo de procesamiento, registrando las imágenes Vis-SWIR y SWIR-LWIR a medida que son obtenidas por los distintos dispositivos de adquisición. El sistema fue implementado en un sistema-en-un-chip (SoC) Zynq XC7Z020 de Xilinx. El prototipo ejecuta de forma separada la fase de calibración inicial y el proceso de registro de imágenes cuadro a cuadro en el procesador embebido y lógica programable respectivamente. La fase de calibración incluye la extracción y emparejamiento de características en conjunto con el cálculo de los parámetros de la transformación. El proceso de registro cuadro a cuadro aplica la transformación proyectiva e interpolación a cada cuadro de la imagen objetivo. El núcleo hardware puede operar a más de 60fps en imágenes de 640 × 512 pixeles a una frecuencia de reloj de 66.6MHz, utilizando el 20% de los recursos lógicos y cerca del 55% de los recursos de memoria del SoC. El sistema consume 1.888W de potencia, de los cuales 1.541W corresponden a la potencia consumida por el procesador y sólo 0.180W al núcleo de registro implementado en hardware. PFCHA-Becas PFCHA-Becas