bachelorThesis
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto
Action Branching in Deep Reinforcement Learning networks to reduce dimensionality of discrete action space
Registro en:
ALVES, Luiz Paulo de Carvalho. Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto. Orientador: Charles Andryê Galvão Madeira. 2022. 78 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.
Autor
Alves, Luiz Paulo de Carvalho
Resumen
Action Branching is a type of Deep Neural Network architecture that uses multiple outputs, each representing a dimension of the action space, to reduce the final size of the output. The Action Branching architecture was proposed and used to solve problems with continuous action spaces, specifically continuous control problems in virtual environments. However, the authors of this architecture claim that it could also be used for problems with discrete action spaces, as long as these problems have high action dimensionality. A high-dimensional problem with a discrete action space is the problem of choosing a position (x, y) in a two-dimensional environment, since the number of possible positions grows quadratically as we increase the maximum size of x and y. This problem of choosing positions becomes tangible in contexts such as real-time strategy games, in which there are thousands of possible positions for carrying out actions at every moment of the game. The objective of this work is to use an Action Branching architecture to reduce the dimensionality of the output of Deep Neural Networks with discrete action spaces, and to evaluate the effect of this architectural modification on the training and learning of the networks. The discrete action spaces used in this work represent positions in a two-dimensional environment, that is, an action or a combination of actions represents the choice of a specific spatial position in the environment. The environments used to carry out the training and evaluation of neural networks were two virtual environments. The first is StarCraft II, a real-time strategy video game published by Blizzard Entertainment. The second is the Clickgame environment, developed by the author in order to carry out experiments in simpler environments. As part of this work, the author developed two Deep Reinforcement Learning algorithms with an Action Branching architecture, the DDQNmo algorithm and the BDQKeras algorithm. Then, several experiments were carried out applying these algorithms in some StarCraft II minigames, and also in the Clickgame environment. Through the experiments it was possible to verify that the implemented algorithms are able to train smaller, faster and more efficient networks than traditional algorithms for the proposed environments. However, scalability and stability problems were identified in these algorithms when applied to more complex problems, indicating the need for future investigations and improvements. Action Branching é um tipo de arquitetura de Redes Neurais Profundas que utiliza múltiplas saídas, em que cada uma representa uma dimensão do espaço de ações, para reduzir o tamanho final da saída. A arquitetura Action Branching foi proposta e utilizada para solucionar problemas com espaços de ação contínuos, especificamente problemas de controle contínuo em ambientes virtuais. No entanto, os autores dessa arquitetura afirmam que ela também poderia ser utilizada para problemas com espaço de ações discreto, contanto que esses problemas tivessem alta dimensionalidade de ações. Um problema de alta dimensionalidade com espaço de ações discreto é o problema de escolher uma posição (x, y) em um ambiente bidimensional, já que a quantidade de posições possíveis cresce quadraticamente com o aumento do tamanho máximo de x e y. Esse problema de escolha de posições se faz tangível em contextos como o de jogos de estratégia em tempo real, nos quais existem milhares de posições possíveis para realização de ações a cada instante do jogo. O objetivo deste trabalho é utilizar uma arquitetura Action Branching para reduzir a dimensionalidade da saída de Redes Neurais Profundas com espaços de ação discretos, e avaliar o efeito dessa modificação arquitetural no treinamento e aprendizado das redes. Os espaços de ações discretos utilizados neste trabalho representam posições em um ambiente bidimensional, ou seja, uma ação ou uma combinação de ações representa a escolha de uma posição espacial específica no ambiente. Os ambientes utilizados para realizar o treinamento e avaliação das redes neurais foram dois ambientes virtuais. O primeiro é StarCraft II, um jogo eletrônico de estratégia em tempo real, publicado pela Blizzard Entertainment. O segundo é o ambiente Clickgame, desenvolvido pelo autor a fim de realizar experimentos em ambientes mais simples. Como parte da realização deste trabalho, foram desenvolvidos pelo autor dois algoritmos de Aprendizagem por Reforço profundo com uma arquitetura de Action Branching, o algoritmo DDQNmo e o algoritmo BDQKeras. Foram, então, realizados diversos experimentos aplicando esses algoritmos em alguns minigames do StarCraft II, e também no ambiente Clickgame. Através dos experimentos foi possível constatar que os algoritmos implementados conseguem treinar redes menores, mais rápidas e mais eficientes que algoritmos tradicionais para os ambientes propostos. No entanto, foram identificados problemas de escalabilidade e de estabilidade nesses algoritmos quando aplicados em problemas mais complexos, indicando a necessidade de investigações e melhorias futuras.
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
History's writing and the action as "open work" in the face of the "crossed perspectives"
Santos, Sanqueilo de Lima; Alvares, Mariana Marcelino -
De la Nouvelle Action française à la Nouvelle Action royaliste: Analyse du processus de mutation militante à partir d’une trajectoire organisationnelle nationaliste
Cucchetti, Humberto Horacio (ARPoS, 2015-08)The transformations that have occurred in the phenomenon of activism have merited several studies and explanations. The present work proposes to address these problems by considering a very specific case: the Nouvelle ...