[David Silver 스터디] 1. Introduction to Reinforcement Learning
Branches of Machine Learning
머신러닝 안에 supervised learning, unsupervised learning, reinforcement learning 등이 있음
- Reinforcement Learning의 특징
- supervisor가 없음. 즉, 정답을 알려주지 않음. reward signal만 있음.
- 피드백이 즉각적이지 않을 수 있음
- sequential., non i.i.d data(independent & identical ... ) : 왼쪽갔다가 오른쪽 가는 것과 오른쪽 갔다가 왼쪽 가는 것이 다를 수 있음
예)
목적 : 로봇이 잘 걷기 // 목적은 사람이 결정
supervisor : 왼쪽으로 몸이 기울 땐 왼발을 디딤 // 사람이 알려줘야 함
reward signal : 무수한 경험을 통해 reward를 최대화하는 것.
- Full observability(MDP : Markov decision process) vs Partial observability(POMDP : partially observable MDP)
Full observability |
Partial observability |
agent가 environment의 모든 상태 및 transition을 아는 것 |
agent가 environment 일부만 아는 것 |
agent state = environment state = information state | agent state 만드는 방법 세개 소개함 |
- Agent 구성요소 (policy / value function / model)
:
+) reward는 현재 가치 / value는 미래 가치
- Agent 분류
|
policy |
value function |
value Based |
X |
O |
policy based |
O |
X |
actor critic |
O |
O |
|
model |
model free |
X |
model based |
O |
- Learning vs Planning
Learning |
Planning |
|
|
* 둘 다 policy를 개선해 감 |
|
ex) 아무 사전 정보 없이 게임을 하면서 익혀가는 것 |
ex) 게임 공략집 가진 채로 게임을 하는 것 (?) |
- Exploration vs Exploitation
Exploration | Exploitation |
내가 현재 모르는 environment 새로운 정보 알아내기 | reward 최대화를 위해, 이미 알고 있는 정보 중 best를 선택 |
ex) 식당 선택 중, 새로운 식당 가기 | ex) 식당 선택 중, 가본 곳 중 가장 좋아하는 식당가기 |
* 둘 다 적절히 사용해야 함 |
- Prediction & Control (얘는 vs 아니라 &임)
Prediction | Control |
policy가 주어진 상황에서 미래의 결과를 예측하고 평가하는 것 | best policy를 찾아서 미래의 결과를 최적화하는 것 |
즉, state의 value function을 찾는 것 | 즉, state에서 어떻게 움직여야하는지를 찾는 것 |