[David Silver 스터디] 1. Introduction to Reinforcement Learning

티스토리 뷰

AI+머신러닝+딥러닝/강화학습 (David Silver)

[David Silver 스터디] 1. Introduction to Reinforcement Learning

Better than alone 2019. 1. 15. 17:56

Branches of Machine Learning

머신러닝 안에 supervised learning, unsupervised learning, reinforcement learning 등이 있음

Reinforcement Learning의 특징

- supervisor가 없음. 즉, 정답을 알려주지 않음. reward signal만 있음.

- 피드백이 즉각적이지 않을 수 있음

- sequential., non i.i.d data(independent & identical ... ) : 왼쪽갔다가 오른쪽 가는 것과 오른쪽 갔다가 왼쪽 가는 것이 다를 수 있음

예)

목적 : 로봇이 잘 걷기 // 목적은 사람이 결정

supervisor : 왼쪽으로 몸이 기울 땐 왼발을 디딤 // 사람이 알려줘야 함

reward signal : 무수한 경험을 통해 reward를 최대화하는 것.

Full observability(MDP : Markov decision process) vs Partial observability(POMDP : partially observable MDP)

Full observability	Partial observability
agent가 environment의 모든 상태 및 transition을 아는 것	agent가 environment 일부만 아는 것
agent state = environment state = information state	agent state 만드는 방법 세개 소개함 (1. history 전체 / 2. environment state 확률적으로 이용(?) / 3. RNN )

Agent 구성요소 (policy / value function / model)

1. policy
: agent가 어떤 state에서 어떤 action을 할지 결정하는 rule (?)

deterministic policy : 어떤 상태에서 하는 행동이 딱 정해져있음

stochastic policy : 어떤 상태에서 어떤 행동을 할지 확률적임 (더 많이 쓰임)

2. value function :
state s에서 policy
를 따를 때, 예측되는 미래 보상 총합

+) reward는 현재 가치 / value는 미래 가치

3. model : agent 입장에서 environment에 대한 정보로, 다음 state와 reward를 예측함

P는 transition으로, action a 했을 때 state s에서 s'으로 이동할 확률

R은 state s일 때, action a하면 얻을 수 있는 보상의 기대값

Agent 분류

	policy	value function
value Based	X	O
policy based	O	X
actor critic	O	O

	model
model free	X
model based	O

Learning vs Planning

Learning	Planning
초기에 environment에 대해 모르는 경우 environment와 상호작용을 통해서 경험을 하고, 그로 인해 환경을 알아감	초기에 environment에 대해 아는 경우
* 둘 다 policy를 개선해 감
ex) 아무 사전 정보 없이 게임을 하면서 익혀가는 것	ex) 게임 공략집 가진 채로 게임을 하는 것 (?)

Exploration vs Exploitation

Exploration	Exploitation
내가 현재 모르는 environment 새로운 정보 알아내기	reward 최대화를 위해, 이미 알고 있는 정보 중 best를 선택
ex) 식당 선택 중, 새로운 식당 가기	ex) 식당 선택 중, 가본 곳 중 가장 좋아하는 식당가기
* 둘 다 적절히 사용해야 함

Prediction & Control (얘는 vs 아니라 &임)

Prediction

Control

policy가 주어진 상황에서 미래의 결과를 예측하고 평가하는 것

best policy를 찾아서 미래의 결과를 최적화하는 것

즉, state의 value function을 찾는 것

즉, state에서 어떻게 움직여야하는지를 찾는 것

'AI+머신러닝+딥러닝 > 강화학습 (David Silver)' 카테고리의 다른 글

[David Silver 스터디] 2. Markov Decision Process (MDP) (0)	2019.03.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

티스토리 뷰

[David Silver 스터디] 1. Introduction to Reinforcement Learning

'AI+머신러닝+딥러닝 > 강화학습 (David Silver)' 카테고리의 다른 글

티스토리툴바