[KMOOC 강화학습] Week 01-1 강화학습의 이해

1 분 소요

해당 강의는 K-MOOC의 “강화학습의 수학적 기초와 알고리즘 이해” 수업을 수강하며 기록한 내용입니다. 강의는 링크에서 확인하실 수 있습니다.

강화학습은 어떤 수학적 근간을 가지고 발전했는가?
- 동적 계획법 : 순차적 의사결정 방법론
- Markov Process 불확실성 반영
- Markov decision process(MDP)
강화학습 방법론
딥러닝
Policy gradient

Overview

⚡우린 자전거를 어떻게 배울까?

⚡ 기존의 방식이 달라진다면?!

🌟 일련의 시도를 통해서 학습 대상을 잘 운용하게 되는 방법론이 강화학습!

⚡ 간단한 규칙을 가지고 벽돌을 깨는 방법을 스스로 학습!

주어진 상황(State)에서 보상(Reward)를 최대화할 수 있는 행동(Action)에 대해 학습하는 것

☝ 상황/상태(State) : 현재 벽돌 상태, 구슬의 위치, 하단 바의 위치와 같은 정보

☝ 행동(Action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정

☝ 보상(Reward) : 어떤 행동을 했을 때 벽돌이 깨지는 양

🌟 결국 학습 주체는 상태를 보고 의사결정을 하고 그에 따른 보상이 전달되면서 좋은 의사 결정에 대해서 학습하게 된다! 그러기에 수많은 시행착오가 존재하게 된다.

⚡ 단, 학습 주체는 환경에 대해 모르는 상태로 학습하며

⚡ 적절히 학습하기 위해 시행착오가 필수적

⚡ Delayed reward : 현재의 행동이 미래의 순차적 보상에 영향을 준다.

기존의 지도학습은 label이 주어져있는 환경에서 즉각적인 피드백으로 학습하기에 현재 데이터를 바탕으로 미래를 예측하는 것.

비지도 학습은 label이 없기에 데이터 자체에 내재된 성질을 찾아내는 것

강화학습은 label이 존재하지 않고, 환경과 상호작용을 통해 데이터(보상)을 가지고 학습하게 되는 것이기에 사전에 준비된 데이터가 아닌 상호작용으로 데이터를 얻게 된다.