순서1. Markov Process - 2. Markov Reward Process - // Return, Value function3. Markov Decision Process S : (finite) set of statesP : state transition probability matrixR : reward functiongamma : discount factor 1. Markov Process (= Markov Chain)MDP란- MDP는 RL을 위한 environment를 표현한 것 전제 조건 : fully observable (agent가 environment의 정보를 모두 알고있음)- 대부분 RL 문제는 MDP 형태로 만들 수 있음 Markov property- state가 Markov하..
Branches of Machine Learning 머신러닝 안에 supervised learning, unsupervised learning, reinforcement learning 등이 있음 Reinforcement Learning의 특징- supervisor가 없음. 즉, 정답을 알려주지 않음. reward signal만 있음. - 피드백이 즉각적이지 않을 수 있음 - sequential., non i.i.d data(independent & identical ... ) : 왼쪽갔다가 오른쪽 가는 것과 오른쪽 갔다가 왼쪽 가는 것이 다를 수 있음 예) 목적 : 로봇이 잘 걷기 // 목적은 사람이 결정 supervisor : 왼쪽으로 몸이 기울 땐 왼발을 디딤 // 사람이 알려줘야 함 reward ..
- Total
- Today
- Yesterday
- Open ID Connect
- 동시설치
- anaconda설치
- 여러 파일 하나로 합치기
- SecurityContextPersistenceFilter
- 스도쿠
- 인쇄열고정
- graph traversals
- dynamic programming
- 메모리제한
- greedy
- ICPC
- nbconvert
- backtracking
- Excel
- ipynb
- Python
- minor GC
- 이클립스메모리분석툴
- Divide&Conquer
- DP
- anaconda2
- Markdown Note
- 인쇄행고정
- 엑셀
- SecurityContextRepository
- Note App
- Bruteforce
- type명령어
- unreachable object
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |