[KMOOC 강화학습] Week 01-1 강화학습의 이해
해당 강의는 K-MOOC의 “강화학습의 수학적 기초와 알고리즘 이해” 수업을 수강하며 기록한 내용입니다. 강의는 링크에서 확인하실 수 있습니다.
Contents
- 강화학습은 어떤 수학적 근간을 가지고 발전했는가?
- 동적 계획법 : 순차적 의사결정 방법론
- Markov Process 불확실성 반영
- Markov decision process(MDP)
- 강화학습 방법론
- 딥러닝
- Policy gradient
Overview
자전거 타기 예시
⚡우린 자전거를 어떻게 배울까?
- 체험을 통한 일련의 과정을 통해 학습
- 어떻게 패달을 밟을지 직접 try & error의 방식으로!
⚡ 기존의 방식이 달라진다면?!
- 핸들의 방향만 반대로 되더라도 다들 넘어지기 쉬워진다.
- 그러니 처음부터 다시 배우는 과정이 필요하게 된다.
🌟 일련의 시도를 통해서 학습 대상을 잘 운용하게 되는 방법론이 강화학습!
벽돌 깨기 게임 예시
⚡ 간단한 규칙을 가지고 벽돌을 깨는 방법을 스스로 학습!
강화학습이란?
주어진 상황(State)에서 보상(Reward)를 최대화할 수 있는 행동(Action)에 대해 학습하는 것
☝ 상황/상태(State) : 현재 벽돌 상태, 구슬의 위치, 하단 바의 위치와 같은 정보
☝ 행동(Action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정
☝ 보상(Reward) : 어떤 행동을 했을 때 벽돌이 깨지는 양
구조
- 학습 주체(Agent)가 환경(Environment)과 상호작용으로 학습을 진행.
- 환경은 학습 주체에게 상태를 제공한다.
- 학습 주체는 의사결정(행동)을 결정하게 된다.
- 의사 결정에 의해 변화가 있고, 보상이 존재하게 된다.
🌟 결국 학습 주체는 상태를 보고 의사결정을 하고 그에 따른 보상이 전달되면서 좋은 의사 결정에 대해서 학습하게 된다! 그러기에 수많은 시행착오가 존재하게 된다.
⚡ 단, 학습 주체는 환경에 대해 모르는 상태로 학습하며
⚡ 적절히 학습하기 위해 시행착오가 필수적
⚡ Delayed reward : 현재의 행동이 미래의 순차적 보상에 영향을 준다.
자전거 타기 예시
- 상태: 핸들 위치
- 행동: 핸들, 패달 움직임 결정
- 보상: 진행 or 넘어짐
기타 학습 방법의 관점
기존의 지도학습은 label이 주어져있는 환경에서 즉각적인 피드백으로 학습하기에 현재 데이터를 바탕으로 미래를 예측하는 것.
비지도 학습은 label이 없기에 데이터 자체에 내재된 성질을 찾아내는 것
강화학습은 label이 존재하지 않고, 환경과 상호작용을 통해 데이터(보상)을 가지고 학습하게 되는 것이기에 사전에 준비된 데이터가 아닌 상호작용으로 데이터를 얻게 된다.
댓글남기기