티스토리 뷰
AI+머신러닝+딥러닝/강화학습 (David Silver)
[David Silver 스터디] 2. Markov Decision Process (MDP)
Better than alone 2019. 3. 21. 16:37순서
1. Markov Process - <S,P>
2. Markov Reward Process - <S,P,R,gamma> // Return, Value function
3. Markov Decision Process
S : (finite) set of states
P : state transition probability matrix
R : reward function
gamma : discount factor
1. Markov Process (= Markov Chain)
- MDP란
- MDP는 RL을 위한 environment를 표현한 것
전제 조건 : fully observable (agent가 environment의 정보를 모두 알고있음)
- 대부분 RL 문제는 MDP 형태로 만들 수 있음
- Markov property
- state가 Markov하다는 것은 현재 state가 과거 state의 정보를 포함하고 있는 것. (모든 정보는 아니고, 의사결정에 필요한 충분한 정보)
- 따라서 state가 Markov한 경우, 현재 state만으로 미래 가치를 예측하고 의사결정을 할 수 있음 (?)
- State transition probability & State transition matrix
- state transition probability : state s에 있을 때, 그 다음 step에 state s'으로 갈 확률
- state transition matrix : 모든 state s, s'에 대한 transition probability의 matrix (각 row의 합이 1)
- Markov process
- memoryless random process : 과거(그 전에 내가 어느 경로로 왔는지) 상관없이 현재 상태에서 random하게 선택 (?????)
- 예) Student Markov Chain과 transition matrix
state : C1 / C2 / C3 / Pass / Pub / FB / Sleep
episode : 예1) C1 C2 C3 Pass Sleep
예2) C1 FB FB C1 C2 Sleep
......
transition matrix : 아래 그림의 P
- Markov Reward Process
- 이 때, 목적은 reward의 총합인 return을 최대화하는 것
- reward function은 현재 state에 있을 때, 다음 state에 받을 수 있는 reward의 기대값
- gamma는 0~1 사이 값으로 현재보다 미래 가치를 덜 중요하게 생각하는 걸 나타냄
- 예)
- Return
이때 discount factor인 gamma 값이 0에 가까울 수록 현재를 중요시하고, 1에 가까울수록 미래도 중요시하는 것임. discount factor를 사용하는 이유에는 위의 이유 뿐만 아니라 수학적으로 계산이 편리한 점도 있음.
- Value Function
- ㅇ
반응형
'AI+머신러닝+딥러닝 > 강화학습 (David Silver)' 카테고리의 다른 글
[David Silver 스터디] 1. Introduction to Reinforcement Learning (0) | 2019.01.15 |
---|
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 인쇄행고정
- Markdown Note
- Divide&Conquer
- Open ID Connect
- type명령어
- Excel
- 메모리제한
- graph traversals
- nbconvert
- Python
- SecurityContextPersistenceFilter
- Note App
- greedy
- 여러 파일 하나로 합치기
- SecurityContextRepository
- DP
- 엑셀
- 동시설치
- 인쇄열고정
- ICPC
- anaconda2
- anaconda설치
- 이클립스메모리분석툴
- dynamic programming
- Bruteforce
- ipynb
- unreachable object
- minor GC
- 스도쿠
- backtracking
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함