Trabajo de grado - Pregrado
Sistema de navegación para robot móvil basado en aprendizaje por refuerzo
Fecha
2020Registro en:
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
Autor
Garrido Urbano, César Daniel
Institución
Resumen
En este proyecto de grado se aborda el problema de navegación para robots móviles utilizando aprendizaje por refuerzo profundo (Deep Reinforcement Learning o DRL). De forma especifica, se implementan algunas variantes de Deep Q-Learning para entrenar a un robot móvil en la tarea de navegar hacia las persona que detecta (a través de una cámara RGB) en simulación. Para esto, se plantea el problema de navegación dentro del contexto de aprendizaje por refuerzo y se comparan los algoritmos de Double DQN y Clipped Double Q Learning a través de una implementación propia. Como caso de estudio se utiliza la plataforma Pepper, un robot semi-humanoide con base omnidireccional diseñado por Softbank Robotics para la interacción con humanos. Actualmente, el robot es capaz de realizar detección de rostros e incorpora sensores como cámaras RGB, cámara de profundidad y láseres, los cuales se utilizan como entrada al sistema de navegación propuesto. Adicionalmente, se utiliza la herramienta de simulación qiBullet para realizar el entrenamiento y validar los resultados de las mejores políticas. El comportamiento del robot con el sistema de navegación desarrollado se puede observar en el siguiente enlace: https://youtu.be/ncqNx_Q3TUg This work addresses the navigation problem for mobile robots using deep reinforcement learning (DRL). Specifically, some variants of Deep Q-Learning are used to train a mobile robot in the task of navigating towards people in simulation. For this, the problem of navigation within the context of reinforcement learning is posed (i.e. it is described as a Markov Decision Process) and the algorithms of Double DQN and Clipped Double Q Learning are compared. The Pepper platform, a semi-humanoid robot with an omnidirectional base, designed by Softbank Robotics for interaction with humans, is used as a case study. Currently, the robot has face detection capabilities (with its RGB Camera) and incorporates other sensors such as depth cameras and lasers, both of which are used as input to the proposed navigation system. Additionally, the simulation tool qiBullet is used to carry out the training and test the behaviour of the best policies. Videos showing this behaviours in simulation can be found at: https://youtu.be/ncqNx_Q3TUg