dc.contributor | EDUARDO FRANCISCO MORALES MANZANARES | |
dc.creator | JULIO CÉSAR HERNÁNDEZ ZARAGOZA | |
dc.date | 2009 | |
dc.date.accessioned | 2023-07-25T16:21:27Z | |
dc.date.available | 2023-07-25T16:21:27Z | |
dc.identifier | http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/387 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805605 | |
dc.description | Reinforcement Learning (RL) is a commonly used technique for learning tasks in robotics.
This is mainly because it allows agents, i.e., robots, to develop optimal control policies
through trial and error interactions with the environment in which these robots perform
and because it does not require a previous model of such environment. However traditional
RL algorithms require long training times which can be several hours, are unnable to re-use
learned policies in similar domains or similar tasks and perform discrete actions.
In large search spaces with thousands of states, the policy generation process takes some
hours and besides, once a policy has been generated, if the goal or the environment changes,
a new policy has to be generated in order to take into account such changes. Finally, discrete
actions produce imprecise movements by the robot which can accumulate an error up to
tens of degrees for turning actions and up to tens of centimeters for displacement actions.
Besides, discrete actions produce slower paths than continuous actions since, with discrete
actions, the robot needs to stop in order to turn in discrete angles increasing, every time it
stops, the tasks' execution times.
In this work, a two stage method to tackle these problems is presented. In the rst
stage, the low level sensor information coming from the robot's sensors is transformed into
a relational description based on rooms, corridors, doors, walls and obstacles to characterize
states and actions, signicantly reducing the state space. Behavoural Cloning (BC), i.e.,
traces provided by the user, are used to learn in few iterations, a control policy, which, due to
the relational representation, can be re-used in similar but dierent domains or environments.
However, this policy uses discrete actions. In the second stage, Locally Weighted Regression
(LWR) is used to transform the discrete actions policy into a continuous actions policy.
The method was used to generate control policies for navigation and following tasks
for simulated and real mobile robots with very promising results. The results show that the
policies are learned after few iterations, can be used on dierent domains, perform smoother,
faster and shorter paths than the original relational policies and the tasks' quality is similar
to the traces provided by the user. | |
dc.description | El Aprendizaje por Refuerzo (Reinforcement Learning, RL) es una técnica muy utilizada
para el aprendizaje de tareas en robótica. Esto se debe, principalmente, a que permite a los
agentes o robots generar políticas de control a través de interacciones de prueba y error con
el ambiente en el cual se encuentran estos robots y a que no se requiere un modelo previo
de dicho ambiente. Sin embargo, los algoritmos tradicionales de RL requieren tiempos de
entrenamiento muy largos los cuales pueden llegar a ser de varias horas, no son capaces
de re-utilizar las políticas aprendidas en dominios o tareas similares y ejecutan acciones
discretas.
En espacios de búsqueda muy grandes con miles de posibles estados, el proceso de
generación de la política puede consumir algunas horas y aunado a esto, una vez generada la
política, si la meta de la tarea o el ambiente cambian, es necesario generar una nueva política
que tome en cuenta tales cambios. Finalmente, las acciones discretas producen movimientos
o desplazamientos poco precisos por parte del robot el cuál puede llegar a acumular errores
de hasta decenas de grados para acciones de giro y de hasta decenas de centímetros para
el caso de acciones de desplazamiento. Además, las acciones discretas producen trayectorias
más lentas que las acciones continuas ya que, con acciones discretas, el robot necesita detenerse
para posteriormente girar en ángulos discretos incrementando así, cada vez que se
detiene, el tiempo de ejecución de sus tareas.
En este trabajo se presenta un método en dos fases para abordar estos problemas. En
la primera fase, la información de bajo nivel de los sensores del robot se transforma en
una representación relacional de estados y acciones basada en habitaciones, pasillos, puertas,
paredes y obstáculos con la cual reduce signicativamente el espacio de estados. Se
empleó Clonación de Comportamiento (Behavioural Cloning, BC), es decir, trazas proporcionadas
por el usuario para aprender, en pocas iteraciones, una política de control la cual,
debido a las descripciones relacionales, puede ser re-utilizada en dominios o ambientes diferentes.
Sin embargo, esta política hace uso de acciones discretas. En la segunda fase, se
utiliza una Regresión Pesada Local (Locally Weighted Regression, LWR) para transformar
la política con acciones discretas en una política con acciones continuas. | |
dc.format | application/pdf | |
dc.language | spa | |
dc.publisher | Instituto Nacional de Astrofísica, Óptica y Electrónica | |
dc.relation | citation:Hernandez-Zaragoza J.C. | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | http://creativecommons.org/licenses/by-nc-nd/4.0 | |
dc.subject | info:eu-repo/classification/Inteligencia artificial/Artificial intelligence | |
dc.subject | info:eu-repo/classification/Análisis de regresión/Regression analysis | |
dc.subject | info:eu-repo/classification/Álgebra Relacional/Relational algebra | |
dc.subject | info:eu-repo/classification/cti/1 | |
dc.subject | info:eu-repo/classification/cti/12 | |
dc.subject | info:eu-repo/classification/cti/1203 | |
dc.subject | info:eu-repo/classification/cti/1203 | |
dc.title | Aprendizaje por refuerzo relacional con acciones continuas | |
dc.type | info:eu-repo/semantics/masterThesis | |
dc.type | info:eu-repo/semantics/acceptedVersion | |
dc.audience | students | |
dc.audience | researchers | |
dc.audience | generalPublic | |