dc.date.accessioned2023-04-27T11:13:01Z
dc.date.accessioned2023-07-13T17:32:55Z
dc.date.available2023-04-27T11:13:01Z
dc.date.available2023-07-13T17:32:55Z
dc.date.created2023-04-27T11:13:01Z
dc.date.issued2023
dc.identifierUniversidad de la República (Uruguay). Facultad de Ciencias. Comisión de Carrera Matemática. Programa de Seminario: de Bandits [en linea] 2023. Plan 2014.
dc.identifierhttps://hdl.handle.net/20.500.12008/36840
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/7425416
dc.description.abstractSe pretende abordar el estudio del problema de "Bandits" y diferentes variantes, desde la versión más básica de Bandits con k-brazos, hasta las nuevas variantes de Bandits con recompensa por fidelidad. El problema de Bandits se enmarca en lo que se conoce como aprendizaje por refuerzos (Reinforcement Learning), donde un individuo tiene que tomar diferentes decisiones y según la decisión que toma, recibe una recompensa. El objetivo es maximizar esta recompensa.
dc.languagees
dc.publisherUniversidad de la República (Uruguay). Facultad de Ciencias. Comisión de Carrera Matemática
dc.rightsLicencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
dc.titlePrograma de Seminario: de Bandits
dc.typePrograma


Este ítem pertenece a la siguiente institución