Step. 1 강화학습의 개념에 대한 복습 REINFORCEMENT LEANING 강화학습에서 학습 하는 것 • Value function 학습 (Prediction) • Monte-Carlo policy evaluation • Value function Approximation • Bellman equation • TD policy evaluation • Q-Learning policy evaluation • DP의 Policy evaluation • Bacth method의 experience replay
Step. 1 강화학습의 개념에 대한 복습 REINFORCEMENT LEANING 강화학습에서 학습 하는 것 • Value function 학습 (Prediction) • Policy 학습 (Optimal policy) • Greedy policy • Policy-gradient
Step. 2 프로젝트에서 강화학습의 개념 REINFORCEMENT LEANING 프로젝트의 목표 • 드론이 목표지점이 있을 때 장애물을 피해 최적의 경로로 비행 할 수 있게 만드는 것. 프로젝트에 필요한 강화학습 성분 Environment Value function u State와 action을 받아서 다음 State로 넘겨주는 것 Greedy Policy u Reward u Action u Observation u GUI(Graphical User Interface) Policy improve DQN(Deep Q network) Policy gradient Actor-critic