[David Silver 스터디] 2. Markov Decision Process (MDP)

티스토리 뷰

AI+머신러닝+딥러닝/강화학습 (David Silver)

[David Silver 스터디] 2. Markov Decision Process (MDP)

Better than alone 2019. 3. 21. 16:37

순서

1. Markov Process - <S,P>

2. Markov Reward Process - <S,P,R,gamma> // Return, Value function

3. Markov Decision Process

S : (finite) set of states

P : state transition probability matrix

R : reward function

gamma : discount factor

1. Markov Process (= Markov Chain)

MDP란

- MDP는 RL을 위한 environment를 표현한 것

전제 조건 : fully observable (agent가 environment의 정보를 모두 알고있음)

- 대부분 RL 문제는 MDP 형태로 만들 수 있음

Markov property

- state가 Markov하다는 것은 현재 state가 과거 state의 정보를 포함하고 있는 것. (모든 정보는 아니고, 의사결정에 필요한 충분한 정보)

- 따라서 state가 Markov한 경우, 현재 state만으로 미래 가치를 예측하고 의사결정을 할 수 있음 (?)

State transition probability & State transition matrix

- state transition probability : state s에 있을 때, 그 다음 step에 state s'으로 갈 확률

- state transition matrix : 모든 state s, s'에 대한 transition probability의 matrix (각 row의 합이 1)

Markov process

- memoryless random process : 과거(그 전에 내가 어느 경로로 왔는지) 상관없이 현재 상태에서 random하게 선택 (?????)

- 예) Student Markov Chain과 transition matrix

state : C1 / C2 / C3 / Pass / Pub / FB / Sleep

episode : 예1) C1 C2 C3 Pass Sleep

예2) C1 FB FB C1 C2 Sleep

......

transition matrix : 아래 그림의 P

Markov Reward Process

- 이 때, 목적은 reward의 총합인 return을 최대화하는 것

- reward function은 현재 state에 있을 때, 다음 state에 받을 수 있는 reward의 기대값

- gamma는 0~1 사이 값으로 현재보다 미래 가치를 덜 중요하게 생각하는 걸 나타냄

- 예)

- Return

이때 discount factor인 gamma 값이 0에 가까울 수록 현재를 중요시하고, 1에 가까울수록 미래도 중요시하는 것임. discount factor를 사용하는 이유에는 위의 이유 뿐만 아니라 수학적으로 계산이 편리한 점도 있음.

- Value Function

'AI+머신러닝+딥러닝 > 강화학습 (David Silver)' 카테고리의 다른 글

[David Silver 스터디] 1. Introduction to Reinforcement Learning (0)	2019.01.15

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

티스토리 뷰

[David Silver 스터디] 2. Markov Decision Process (MDP)

'AI+머신러닝+딥러닝 > 강화학습 (David Silver)' 카테고리의 다른 글

티스토리툴바