티스토리 뷰
[David Silver 스터디] 1. Introduction to Reinforcement Learning
Better than alone 2019. 1. 15. 17:56Branches of Machine Learning
머신러닝 안에 supervised learning, unsupervised learning, reinforcement learning 등이 있음
- Reinforcement Learning의 특징
- supervisor가 없음. 즉, 정답을 알려주지 않음. reward signal만 있음.
- 피드백이 즉각적이지 않을 수 있음
- sequential., non i.i.d data(independent & identical ... ) : 왼쪽갔다가 오른쪽 가는 것과 오른쪽 갔다가 왼쪽 가는 것이 다를 수 있음
예)
목적 : 로봇이 잘 걷기 // 목적은 사람이 결정
supervisor : 왼쪽으로 몸이 기울 땐 왼발을 디딤 // 사람이 알려줘야 함
reward signal : 무수한 경험을 통해 reward를 최대화하는 것.
- Full observability(MDP : Markov decision process) vs Partial observability(POMDP : partially observable MDP)
Full observability |
Partial observability |
agent가 environment의 모든 상태 및 transition을 아는 것 |
agent가 environment 일부만 아는 것 |
agent state = environment state = information state | agent state 만드는 방법 세개 소개함 |
- Agent 구성요소 (policy / value function / model)
:
state s에서 policy 를 따를 때, 예측되는 미래 보상 총합+) reward는 현재 가치 / value는 미래 가치
- Agent 분류
|
policy |
value function |
value Based |
X |
O |
policy based |
O |
X |
actor critic |
O |
O |
|
model |
model free |
X |
model based |
O |
- Learning vs Planning
Learning |
Planning |
|
|
* 둘 다 policy를 개선해 감 |
|
ex) 아무 사전 정보 없이 게임을 하면서 익혀가는 것 |
ex) 게임 공략집 가진 채로 게임을 하는 것 (?) |
- Exploration vs Exploitation
Exploration | Exploitation |
내가 현재 모르는 environment 새로운 정보 알아내기 | reward 최대화를 위해, 이미 알고 있는 정보 중 best를 선택 |
ex) 식당 선택 중, 새로운 식당 가기 | ex) 식당 선택 중, 가본 곳 중 가장 좋아하는 식당가기 |
* 둘 다 적절히 사용해야 함 |
- Prediction & Control (얘는 vs 아니라 &임)
Prediction | Control |
policy가 주어진 상황에서 미래의 결과를 예측하고 평가하는 것 | best policy를 찾아서 미래의 결과를 최적화하는 것 |
즉, state의 value function을 찾는 것 | 즉, state에서 어떻게 움직여야하는지를 찾는 것 |
'AI+머신러닝+딥러닝 > 강화학습 (David Silver)' 카테고리의 다른 글
[David Silver 스터디] 2. Markov Decision Process (MDP) (0) | 2019.03.21 |
---|
- Total
- Today
- Yesterday
- nbconvert
- Divide&Conquer
- 이클립스메모리분석툴
- backtracking
- 스도쿠
- SecurityContextRepository
- SecurityContextPersistenceFilter
- Python
- 인쇄행고정
- Excel
- Markdown Note
- unreachable object
- ICPC
- dynamic programming
- type명령어
- 동시설치
- 인쇄열고정
- Note App
- DP
- ipynb
- 엑셀
- anaconda2
- 메모리제한
- greedy
- 여러 파일 하나로 합치기
- graph traversals
- Bruteforce
- minor GC
- anaconda설치
- Open ID Connect
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |