Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios

Errecalde, Marcelo Luis; Muchut, Alfredo

Objeto de conferencia

Registro en:

http://sedici.unlp.edu.ar/handle/10915/23400

Autor

Errecalde, Marcelo Luis

Muchut, Alfredo

Institución

Universidad Nacional de La Plata (Argentina)

Resumen

El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.

Eje: Sistemas inteligentes

Red de Universidades con Carreras en Informática (RedUNCI)

Materias

Ciencias Informáticas

Mostrar el registro completo del ítem