티스토리 뷰

Branches of Machine Learning

머신러닝 안에 supervised learning, unsupervised learning, reinforcement learning 등이 있음


  • Reinforcement Learning의 특징

- supervisor가 없음. 즉, 정답을 알려주지 않음. reward signal만 있음.

- 피드백이 즉각적이지 않을 수 있음

- sequential., non i.i.d data(independent & identical ... ) : 왼쪽갔다가 오른쪽 가는 것과 오른쪽 갔다가 왼쪽 가는 것이 다를 수 있음


예)

목적 : 로봇이 잘 걷기 // 목적은 사람이 결정

supervisor : 왼쪽으로 몸이 기울 땐 왼발을 디딤 // 사람이 알려줘야 함

reward signal : 무수한 경험을 통해 reward를 최대화하는 것.









  • Full observability(MDP : Markov decision process) vs Partial observability(POMDP : partially observable MDP)

 Full observability

Partial observability 

 agent가 environment의 모든 상태 및 transition을 아는 것

agent가 environment 일부만 아는 것

 agent state = environment state = information state

agent state 만드는 방법 세개 소개함 
(1. history 전체 / 2. environment state 확률적으로 이용(?) / 3. RNN )


  • Agent 구성요소 (policy / value function / model)
1. policy 

: agent가 어떤 state에서 어떤 action을 할지 결정하는 rule (?)
deterministic policy : 어떤 상태에서 하는 행동이 딱 정해져있음
stochastic policy : 어떤 상태에서 어떤 행동을 할지 확률적임 (더 많이 쓰임) 
2. value function 

 :

 state s에서 policy 

를 따를 때, 예측되는 미래 보상 총합

 +) reward는 현재 가치 / value는 미래 가치

3. model : agent 입장에서 environment에 대한 정보로, 다음 state와 reward를 예측함
 
P는 transition으로, action a 했을 때 state s에서 s'으로 이동할 확률
R은 state s일 때, action a하면 얻을 수 있는 보상의 기대값


  • Agent 분류

 

policy

value function 

 value Based

 X

 O

 policy based

 O

 X

 actor critic

 O

 O


 

 model

 model free

 X

 model based

 O



  • Learning vs Planning

 Learning

 Planning

  • 초기에 environment에 대해 모르는 경우
  • environment와 상호작용을 통해서 경험을 하고, 그로 인해 환경을 알아감
  • 초기에 environment에 대해 아는 경우

 * 둘 다 policy를 개선해 감 

 ex) 아무 사전 정보 없이 게임을 하면서 익혀가는 것

 ex) 게임 공략집 가진 채로 게임을 하는 것 (?)


  • Exploration vs Exploitation

 Exploration

 Exploitation

내가 현재 모르는 environment 새로운 정보 알아내기

reward 최대화를 위해, 이미 알고 있는 정보 중 best를 선택

ex) 식당 선택 중, 새로운 식당 가기

ex) 식당 선택 중, 가본 곳 중 가장 좋아하는 식당가기 

* 둘 다 적절히 사용해야 함


  • Prediction & Control (얘는 vs 아니라 &임)

Prediction

Control

policy가 주어진 상황에서 미래의 결과를 예측하고 평가하는 것

best policy를 찾아서 미래의 결과를 최적화하는 것

즉, state의 value function을 찾는 것

즉, state에서 어떻게 움직여야하는지를 찾는 것



반응형
댓글