[David Silver 스터디] 1. Introduction to Reinforcement Learning

AI+머신러닝+딥러닝/강화학습 (David Silver)

Better than alone 2019. 1. 15. 17:56

Branches of Machine Learning

머신러닝 안에 supervised learning, unsupervised learning, reinforcement learning 등이 있음

- supervisor가 없음. 즉, 정답을 알려주지 않음. reward signal만 있음.

- 피드백이 즉각적이지 않을 수 있음

- sequential., non i.i.d data(independent & identical ... ) : 왼쪽갔다가 오른쪽 가는 것과 오른쪽 갔다가 왼쪽 가는 것이 다를 수 있음

예)

목적 : 로봇이 잘 걷기 // 목적은 사람이 결정

supervisor : 왼쪽으로 몸이 기울 땐 왼발을 디딤 // 사람이 알려줘야 함

reward signal : 무수한 경험을 통해 reward를 최대화하는 것.

Full observability(MDP : Markov decision process) vs Partial observability(POMDP : partially observable MDP)

Full observability	Partial observability
agent가 environment의 모든 상태 및 transition을 아는 것	agent가 environment 일부만 아는 것
agent state = environment state = information state	agent state 만드는 방법 세개 소개함 (1. history 전체 / 2. environment state 확률적으로 이용(?) / 3. RNN )

1. policy
: agent가 어떤 state에서 어떤 action을 할지 결정하는 rule (?)

deterministic policy : 어떤 상태에서 하는 행동이 딱 정해져있음

stochastic policy : 어떤 상태에서 어떤 행동을 할지 확률적임 (더 많이 쓰임)

2. value function :
state s에서 policy
를 따를 때, 예측되는 미래 보상 총합

+) reward는 현재 가치 / value는 미래 가치

3. model : agent 입장에서 environment에 대한 정보로, 다음 state와 reward를 예측함

P는 transition으로, action a 했을 때 state s에서 s'으로 이동할 확률

R은 state s일 때, action a하면 얻을 수 있는 보상의 기대값

Learning	Planning
초기에 environment에 대해 모르는 경우 environment와 상호작용을 통해서 경험을 하고, 그로 인해 환경을 알아감	초기에 environment에 대해 아는 경우
* 둘 다 policy를 개선해 감
ex) 아무 사전 정보 없이 게임을 하면서 익혀가는 것	ex) 게임 공략집 가진 채로 게임을 하는 것 (?)

Exploration	Exploitation
내가 현재 모르는 environment 새로운 정보 알아내기	reward 최대화를 위해, 이미 알고 있는 정보 중 best를 선택
ex) 식당 선택 중, 새로운 식당 가기	ex) 식당 선택 중, 가본 곳 중 가장 좋아하는 식당가기
* 둘 다 적절히 사용해야 함

Prediction

Control

policy가 주어진 상황에서 미래의 결과를 예측하고 평가하는 것

best policy를 찾아서 미래의 결과를 최적화하는 것

즉, state의 value function을 찾는 것

즉, state에서 어떻게 움직여야하는지를 찾는 것