Aprendizaje por refuerzo relacional con acciones continuas

JULIO CÉSAR HERNÁNDEZ ZARAGOZA

dc.contributor	EDUARDO FRANCISCO MORALES MANZANARES
dc.creator	JULIO CÉSAR HERNÁNDEZ ZARAGOZA
dc.date	2009
dc.date.accessioned	2023-07-25T16:21:27Z
dc.date.available	2023-07-25T16:21:27Z
dc.identifier	http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/387
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805605
dc.description	Reinforcement Learning (RL) is a commonly used technique for learning tasks in robotics. This is mainly because it allows agents, i.e., robots, to develop optimal control policies through trial and error interactions with the environment in which these robots perform and because it does not require a previous model of such environment. However traditional RL algorithms require long training times which can be several hours, are unnable to re-use learned policies in similar domains or similar tasks and perform discrete actions. In large search spaces with thousands of states, the policy generation process takes some hours and besides, once a policy has been generated, if the goal or the environment changes, a new policy has to be generated in order to take into account such changes. Finally, discrete actions produce imprecise movements by the robot which can accumulate an error up to tens of degrees for turning actions and up to tens of centimeters for displacement actions. Besides, discrete actions produce slower paths than continuous actions since, with discrete actions, the robot needs to stop in order to turn in discrete angles increasing, every time it stops, the tasks' execution times. In this work, a two stage method to tackle these problems is presented. In the rst stage, the low level sensor information coming from the robot's sensors is transformed into a relational description based on rooms, corridors, doors, walls and obstacles to characterize states and actions, signicantly reducing the state space. Behavoural Cloning (BC), i.e., traces provided by the user, are used to learn in few iterations, a control policy, which, due to the relational representation, can be re-used in similar but dierent domains or environments. However, this policy uses discrete actions. In the second stage, Locally Weighted Regression (LWR) is used to transform the discrete actions policy into a continuous actions policy. The method was used to generate control policies for navigation and following tasks for simulated and real mobile robots with very promising results. The results show that the policies are learned after few iterations, can be used on dierent domains, perform smoother, faster and shorter paths than the original relational policies and the tasks' quality is similar to the traces provided by the user.
dc.description	El Aprendizaje por Refuerzo (Reinforcement Learning, RL) es una técnica muy utilizada para el aprendizaje de tareas en robótica. Esto se debe, principalmente, a que permite a los agentes o robots generar políticas de control a través de interacciones de prueba y error con el ambiente en el cual se encuentran estos robots y a que no se requiere un modelo previo de dicho ambiente. Sin embargo, los algoritmos tradicionales de RL requieren tiempos de entrenamiento muy largos los cuales pueden llegar a ser de varias horas, no son capaces de re-utilizar las políticas aprendidas en dominios o tareas similares y ejecutan acciones discretas. En espacios de búsqueda muy grandes con miles de posibles estados, el proceso de generación de la política puede consumir algunas horas y aunado a esto, una vez generada la política, si la meta de la tarea o el ambiente cambian, es necesario generar una nueva política que tome en cuenta tales cambios. Finalmente, las acciones discretas producen movimientos o desplazamientos poco precisos por parte del robot el cuál puede llegar a acumular errores de hasta decenas de grados para acciones de giro y de hasta decenas de centímetros para el caso de acciones de desplazamiento. Además, las acciones discretas producen trayectorias más lentas que las acciones continuas ya que, con acciones discretas, el robot necesita detenerse para posteriormente girar en ángulos discretos incrementando así, cada vez que se detiene, el tiempo de ejecución de sus tareas. En este trabajo se presenta un método en dos fases para abordar estos problemas. En la primera fase, la información de bajo nivel de los sensores del robot se transforma en una representación relacional de estados y acciones basada en habitaciones, pasillos, puertas, paredes y obstáculos con la cual reduce signicativamente el espacio de estados. Se empleó Clonación de Comportamiento (Behavioural Cloning, BC), es decir, trazas proporcionadas por el usuario para aprender, en pocas iteraciones, una política de control la cual, debido a las descripciones relacionales, puede ser re-utilizada en dominios o ambientes diferentes. Sin embargo, esta política hace uso de acciones discretas. En la segunda fase, se utiliza una Regresión Pesada Local (Locally Weighted Regression, LWR) para transformar la política con acciones discretas en una política con acciones continuas.
dc.format	application/pdf
dc.language	spa
dc.publisher	Instituto Nacional de Astrofísica, Óptica y Electrónica
dc.relation	citation:Hernandez-Zaragoza J.C.
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject	info:eu-repo/classification/Inteligencia artificial/Artificial intelligence
dc.subject	info:eu-repo/classification/Análisis de regresión/Regression analysis
dc.subject	info:eu-repo/classification/Álgebra Relacional/Relational algebra
dc.subject	info:eu-repo/classification/cti/1
dc.subject	info:eu-repo/classification/cti/12
dc.subject	info:eu-repo/classification/cti/1203
dc.subject	info:eu-repo/classification/cti/1203
dc.title	Aprendizaje por refuerzo relacional con acciones continuas
dc.type	info:eu-repo/semantics/masterThesis
dc.type	info:eu-repo/semantics/acceptedVersion
dc.audience	students
dc.audience	researchers
dc.audience	generalPublic

Este ítem pertenece a la siguiente institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Aprendizaje por refuerzo relacional con acciones continuas

Este ítem pertenece a la siguiente institución

Ítems relacionados

Compendio de innovaciones socioambientales en la frontera sur de México ﻿

Caminar el cafetal: perspectivas socioambientales del café y su gente ﻿

Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración ﻿

Compendio de innovaciones socioambientales en la frontera sur de México

Caminar el cafetal: perspectivas socioambientales del café y su gente

Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración