Comparao entre algoritmos de aprendizagem por reforo utilizando
- Slides: 9
Comparação entre algoritmos de aprendizagem por reforço utilizando a plataforma Vi. ZDoom Leandro C. Medeiros
Vi. ZDoom • Plataforma que permite o desenvolvimento de bots usando algoritmos de aprendizado por reforço baseado apenas no buffer da tela. (“Reinforcement learning friendly”) • Apresentada na IEEE de 2016 • API’s documentadas: C++, Python e Java • Facilidade para criar cenários customizados • Cenários-padrão com exemplos.
Vi. ZDoom – Alguns exemplos “Basic Example” “Health gathering” “Defend the center”
Mais mudanças. . . (as últimas) • Aprendizado por reforço passivo foi deixado de lado • Requer ambiente totalmente observável -> limitação do que a ferramenta proporciona. • Serão implementados os algoritmos Deep Q-Learning (DQN) e Double Deep Q-Learning (DDQN) • “Deep” pois é utilizado mais de 2 camadas na rede neural (convolucional) implementada. • Com suporte das bibliotecas Theano + Lasagne (Python)
O que foi feito até agora? • Implementação do DQN • A rede neural é responsável por pegar o buffer da tela como entrada, através das camadas intermediárias calcular o valor de Q para um par de (estado, ação). • Este valor é atualizado a cada conjunto de treinamento (“Epoche”). • O valor representa uma correlação entre o par (estado, ação) e chegar ao estado terminal com uma recompensa alta. • Exploration vs Exploitation • Sair da zona de conforto (até um certo limite)
O que foi feito até agora?
Vídeo • (Para 2000 treinamentos por epoche)
Cronograma MAR ABR Estudo da linguagem Python X X Revisão da literatura X Domínio da plataforma Implementação de algoritmos Redação do artigo MAI JUN JUL AGO X X X SET OUT X X X NOV X
Dúvidas? Website: https: //leandrocoutom. wordpress. com/