Comparao entre algoritmos de aprendizagem por reforo utilizando

Comparação entre algoritmos de aprendizagem por reforço utilizando a plataforma Vi. ZDoom Leandro C.

Vi. ZDoom • Plataforma que permite o desenvolvimento de bots usando algoritmos de aprendizado

Vi. ZDoom – Alguns exemplos “Basic Example” “Health gathering” “Defend the center”

Mais mudanças. . . (as últimas) • Aprendizado por reforço passivo foi deixado de

O que foi feito até agora? • Implementação do DQN • A rede neural

Vídeo • (Para 2000 treinamentos por epoche)

Cronograma MAR ABR Estudo da linguagem Python X X Revisão da literatura X Domínio

Dúvidas? Website: https: //leandrocoutom. wordpress. com/

Slides: 9

Download presentation

Comparação entre algoritmos de aprendizagem por reforço utilizando a plataforma Vi. ZDoom Leandro C. Medeiros

Vi. ZDoom • Plataforma que permite o desenvolvimento de bots usando algoritmos de aprendizado por reforço baseado apenas no buffer da tela. (“Reinforcement learning friendly”) • Apresentada na IEEE de 2016 • API’s documentadas: C++, Python e Java • Facilidade para criar cenários customizados • Cenários-padrão com exemplos.

Vi. ZDoom – Alguns exemplos “Basic Example” “Health gathering” “Defend the center”

Mais mudanças. . . (as últimas) • Aprendizado por reforço passivo foi deixado de lado • Requer ambiente totalmente observável -> limitação do que a ferramenta proporciona. • Serão implementados os algoritmos Deep Q-Learning (DQN) e Double Deep Q-Learning (DDQN) • “Deep” pois é utilizado mais de 2 camadas na rede neural (convolucional) implementada. • Com suporte das bibliotecas Theano + Lasagne (Python)

O que foi feito até agora? • Implementação do DQN • A rede neural é responsável por pegar o buffer da tela como entrada, através das camadas intermediárias calcular o valor de Q para um par de (estado, ação). • Este valor é atualizado a cada conjunto de treinamento (“Epoche”). • O valor representa uma correlação entre o par (estado, ação) e chegar ao estado terminal com uma recompensa alta. • Exploration vs Exploitation • Sair da zona de conforto (até um certo limite)

O que foi feito até agora?

Vídeo • (Para 2000 treinamentos por epoche)

Cronograma MAR ABR Estudo da linguagem Python X X Revisão da literatura X Domínio da plataforma Implementação de algoritmos Redação do artigo MAI JUN JUL AGO X X X SET OUT X X X NOV X

Dúvidas? Website: https: //leandrocoutom. wordpress. com/