Article
Mobile robot path planning using a QAPF learning algorithm for known and unknown environments
Fecha
2022-08Autor
Orozco Rosas, Ulises
Picos, Kenia
Pantrigo, Juan José
Montemayor, Antonio
Cuesta-Infante, Alfredo
Institución
Resumen
This paper presents the computation of feasible paths for mobile robots in known and
unknown environments using a QAPF learning algorithm. Q-learning is a reinforcement learning algorithm
that has increased in popularity in mobile robot path planning in recent times, due to its self-learning capability without requiring a priori model of the environment. However, Q-learning shows slow convergence to
the optimal solution, notwithstanding such an advantage. To address this limitation, the concept of partially
guided Q-learning is employed wherein, the artificial potential field (APF) method is utilized to improve
the classical Q-learning approach. Therefore, the proposed QAPF learning algorithm for path planning can
enhance learning speed and improve final performance using the combination of Q-learning and the APF
method. Criteria used to measure planning effectiveness include path length, path smoothness, and learning
time. Experiments demonstrate that the QAPF algorithm successfully achieves better learning values that
outperform the classical Q-learning approach in all the test environments presented in terms of the criteria
mentioned above in offline and online path planning modes. The QAPF learning algorithm reached an
improvement of 18.83% in path length for the online mode, an improvement of 169.75% in path smoothness
for the offline mode, and an improvement of 74.84% in training time over the classical approach. RESUMEN Este artículo presenta el cálculo de rutas factibles para robots móviles en entornos conocidos y desconocidos utilizando un algoritmo de aprendizaje QAPF. Q-learning es un algoritmo de aprendizaje por refuerzo que ha ganado popularidad en la planificación de trayectorias de robots móviles en los últimos tiempos, debido a su capacidad de autoaprendizaje sin necesidad de un modelo a priori del entorno. Sin embargo, Q-learning muestra una convergencia lenta a la solución óptima, a pesar de tal ventaja. Para abordar esta limitación, se emplea el concepto de Q-learning parcialmente guiado en el que se utiliza el método de campo potencial artificial (APF) para mejorar el enfoque clásico de Q-learning. Por lo tanto, el algoritmo de aprendizaje QAPF propuesto para la planificación de rutas puede aumentar la velocidad de aprendizaje y mejorar el rendimiento final mediante la combinación de Q-learning y el método APF. Los criterios utilizados para medir la efectividad de la planificación incluyen la longitud de la ruta, la suavidad de la ruta y el tiempo de aprendizaje. Los experimentos demuestran que el algoritmo QAPF logra con éxito mejores valores de aprendizaje que superan el enfoque clásico de Q-learning en todos los entornos de prueba presentados en términos de los criterios mencionados anteriormente en los modos de planificación de ruta fuera de línea y en línea. El algoritmo de aprendizaje QAPF alcanzó una mejora del 18,83 % en la longitud de la ruta para el modo en línea, una mejora del 169,75 % en la suavidad de la ruta para el modo fuera de línea y una mejora del 74,84 % en el tiempo de entrenamiento con respecto al enfoque clásico.