Trabajo de grado - Maestría
Development of a probabilistic perception system for camera-lidar sensor fusion
Fecha
2021-06-02Autor
Obando Ceron, Johan Samir
Institución
Resumen
La estimación de profundidad usando diferentes sensores es uno de los desafíos clave para dotar a las máquinas autónomas de sólidas capacidades de percepción robótica. Ha habido un avance sobresaliente en el desarrollo de técnicas de estimación de profundidad unimodales basadas en cámaras monoculares, debido a su alta resolución o sensores LiDAR, debido a los datos geométricos precisos que proporcionan. Sin embargo, cada uno de ellos presenta inconvenientes inherentes, como la alta sensibilidad a los cambios en las condiciones de iluminación en el caso delas cámaras y la resolución limitada de los sensores LiDAR. La fusión de sensores se puede utilizar para combinar los méritos y compensar las desventajas de estos dos tipos de sensores. Sin embargo, los métodos de fusión actuales funcionan a un alto nivel. Procesan los flujos de datos de los sensores de forma independiente y combinan las estimaciones de alto nivel obtenidas para cada sensor. En este proyecto, abordamos el problema en un nivel bajo, fusionando los flujos de sensores sin procesar, obteniendo así estimaciones de profundidad que son densas y precisas, y pueden usarse como una fuente de datos multimodal unificada para problemas de estimación de nivel superior. Este trabajo propone un modelo de campo aleatorio condicional (CRF) con múltiples potenciales de geometría y apariencia que representa a la perfección el problema de estimar mapas de profundidad densos a partir de datos de cámara y LiDAR. El modelo se puede optimizar de manera eficiente utilizando el algoritmo Conjúgate Gradient Squared (CGS). El método propuesto se evalúa y compara utilizando el conjunto de datos proporcionado por KITTI Datset. Adicionalmente, se evalúa cualitativamente el modelo, usando datos adquiridos por el autor de esté trabajo Multi-modal depth estimation is one of the key challenges for endowing autonomous
machines with robust robotic perception capabilities. There has been an outstanding
advance in the development of uni-modal depth estimation techniques based
on either monocular cameras, because of their rich resolution or LiDAR sensors due
to the precise geometric data they provide. However, each of them suffers from some
inherent drawbacks like high sensitivity to changes in illumination conditions in
the case of cameras and limited resolution for the LiDARs. Sensor fusion can be
used to combine the merits and compensate the downsides of these two kinds of
sensors. Nevertheless, current fusion methods work at a high level. They processes
sensor data streams independently and combine the high level estimates obtained
for each sensor. In this thesis, I tackle the problem at a low level, fusing the raw
sensor streams, thus obtaining depth estimates which are both dense and precise,
and can be used as a unified multi-modal data source for higher level estimation
problems.
This work proposes a Conditional Random Field (CRF) model with multiple geometry
and appearance potentials that seamlessly represents the problem of estimating
dense depth maps from camera and LiDAR data. The model can be optimized
efficiently using the Conjugate Gradient Squared (CGS) algorithm. The proposed
method was evaluated and compared with the state-of-the-art using the commonly
used KITTI benchmark dataset. In addition, the model is qualitatively evaluated using
data acquired by the author of this work.