Learning robotic manipulation tasks using relational reinforcement learning and human demonstrations

Arquímides Méndez Molina

info:eu-repo/semantics/masterThesis

Registro en:

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/1577

https://repositorioslatinoamericanos.uchile.cl/handle/2250/7806772

Autor

Arquímides Méndez Molina

Institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Resumen

Autonomy in robots depends to a large extent on their ability to learn to perform new tasks as they are required. The current techniques for learning tasks strongly depend on information given by expert users and often, for a robot, what is learned is hardly reusable on new or similar tasks. In this research, we propose a method for a robot to learn simple multi-step pick and place tasks using information of humans instructors demonstrating different tasks, ensuring that what it is learned can be used under different initial configurations of the given task. To do that, we use a precise camera system for demonstration perception to capture the spatial relations between the involved objects while focusing on goal and sub-goals identification for the given task. Then, we use a state-action representation based on relative positions and distances in combination with a traditional Reinforcement Learning algorithm to learn an off-line policy for pick and place a single object. Finally, we use a Constraint Satisfaction Problem Solver to determine a feasible positions for involved objects that meet all spatial relations at the goal state, and used the goal and sub-goals information in combination with the learned policy to reproduce the given task step by step. Our method reduce the dependency of the robot on demonstration quality, reduce learning times in comparison with traditional state-actions representations, and is capable of learning to perform a task from different starting points from a single user demonstration. To test our method, we used both, a simulator and a real manipulator robot, to reproduce thir-teen tasks (seven predefined and six open-ended created by instructors) under different initial configurations. We obtain an average accuracy of 80% for predefined tasks and 65% for open-ended tasks. In most cases, failures are produced by aspects such as the grip, which were not the focus of the current implementation. The results provide a good starting point to work on some specific aspects that would make our method even more natural, such as automatic grip pose identification, human feedback during the repetition phase and the use of a practical vision system for demonstration perception.

La autonomía en los robots depende en gran parte de su capacidad para aprender a realizar nuevas tareas a medida que éstas se requieran. Las técnicas actuales para el aprendizaje de nuevas tareas dependen en gran medida de la información proporcionada por usuarios expertos en el área y, a menudo, para un robot, lo aprendido es difícilmente reutilizable en tareas nuevas o similares. En esta investigación proponemos un método para que un robot aprenda tareas sencillas de selección y colocación de objetos en múltiples pasos usando la información de demostraciones de humanos realizando distintas tareas, asegurando que lo que se aprende se puede usar bajo diferentes configuraciones iniciales de la tarea dada. Para hacer eso, usamos un sistema de cámaras muy preciso para la percepción de la demostración que permite capturar las relaciones espaciales entre los objetos involucrados mientras nos enfocamos en la identificación de meta y las sub-metas de la tarea demostrada. Luego, utilizamos una representación de estado-acción basada en posiciones y distancias relativas en combinación con un algoritmo de aprendizaje de refuerzo tradicional para aprender una política fuera de línea para seleccionar y colocar un solo objeto. Finalmente, utilizamos un solucionador de problemas de satisfacción de restricciones para determinar las posiciones factibles para los objetos involucrados que cumplan con todas las relaciones espaciales en el estado meta y utilizamos la información de las metas y las sub-metas identificadas previamente en combinación con la política aprendida para reproducir la tarea determinada paso a paso. Nuestro método reduce la dependencia del robot de la calidad de la demostración, reduce los tiempos de aprendizaje en comparación con la representación tradicional de estados y acciones y es capaz de aprender a realizar una tarea desde diferentes puntos iniciales a partir de una sola demostración del usuario. Para probar nuestro método, utilizamos tanto un simulador como un robot manipulador real, para reproducir trece tareas (siete predefinidas y seis creadas por instructores de final abierto) bajo diferentes configuraciones iniciales. Obtenemos una precisión promedio de 80% para tareas predefinidas y 65% para las tareas de final abierto. En la mayoría de los casos, las fallas se producen por aspectos como el agarre, que no estaban en el foco de la implementación actual.