티스토리 뷰

순서
1. Markov Process - <S,P>
2. Markov Reward Process - <S,P,R,gamma>  // Return, Value function
3. Markov Decision Process

S : (finite) set of states
P : state transition probability matrix
R : reward function
gamma : discount factor

1. Markov Process (= Markov Chain)
  • MDP란
- MDP는 RL을 위한 environment를 표현한 것
  전제 조건 : fully observable (agent가 environment의 정보를 모두 알고있음)
- 대부분 RL 문제는 MDP 형태로 만들 수 있음

  • Markov property
- state가 Markov하다는 것은 현재 state가 과거 state의 정보를 포함하고 있는 것. (모든 정보는 아니고, 의사결정에 필요한 충분한 정보)
- 따라서 state가 Markov한 경우, 현재 state만으로 미래 가치를 예측하고 의사결정을 할 수 있음 (?)

  • State transition probability & State transition matrix
- state transition probability : state s에 있을 때, 그 다음 step에 state s'으로 갈 확률
- state transition matrix : 모든 state s, s'에 대한 transition probability의 matrix (각 row의 합이 1)

  • Markov process
- memoryless random process : 과거(그 전에 내가 어느 경로로 왔는지) 상관없이 현재 상태에서 random하게 선택 (?????)
- 예) Student Markov Chain과 transition matrix
state : C1 / C2 / C3 / Pass / Pub / FB / Sleep
episode : 예1) C1 C2 C3 Pass Sleep
 예2) C1 FB FB C1 C2 Sleep
  ......
transition matrix : 아래 그림의 P

  • Markov Reward Process
- 이 때, 목적은 reward의 총합인 return을 최대화하는 것
- reward function은 현재 state에 있을 때, 다음 state에 받을 수 있는 reward의 기대값
- gamma는 0~1 사이 값으로 현재보다 미래 가치를 덜 중요하게 생각하는 걸 나타냄
- 예) 
- Return
이때 discount factor인 gamma 값이 0에 가까울 수록 현재를 중요시하고, 1에 가까울수록 미래도 중요시하는 것임. discount factor를 사용하는 이유에는 위의 이유 뿐만 아니라 수학적으로 계산이 편리한 점도 있음.
- Value Function


반응형
댓글