1 분 소요

해당 강의는 K-MOOC의 “강화학습의 수학적 기초와 알고리즘 이해” 수업을 수강하며 기록한 내용입니다. 강의는 링크에서 확인하실 수 있습니다.

Contents

  1. 강화학습은 어떤 수학적 근간을 가지고 발전했는가?
    • 동적 계획법 : 순차적 의사결정 방법론
    • Markov Process 불확실성 반영
    • Markov decision process(MDP)
  2. 강화학습 방법론
  3. 딥러닝
  4. Policy gradient

Overview

자전거 타기 예시

⚡우린 자전거를 어떻게 배울까?

  • 체험을 통한 일련의 과정을 통해 학습
    • 어떻게 패달을 밟을지 직접 try & error의 방식으로!

⚡ 기존의 방식이 달라진다면?!

  • 핸들의 방향만 반대로 되더라도 다들 넘어지기 쉬워진다.
    • 그러니 처음부터 다시 배우는 과정이 필요하게 된다.

🌟 일련의 시도를 통해서 학습 대상을 잘 운용하게 되는 방법론이 강화학습!

벽돌 깨기 게임 예시

⚡ 간단한 규칙을 가지고 벽돌을 깨는 방법을 스스로 학습!


강화학습이란?

주어진 상황(State)에서 보상(Reward)를 최대화할 수 있는 행동(Action)에 대해 학습하는 것

☝ 상황/상태(State) : 현재 벽돌 상태, 구슬의 위치, 하단 바의 위치와 같은 정보

☝ 행동(Action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정

☝ 보상(Reward) : 어떤 행동을 했을 때 벽돌이 깨지는 양

구조

  1. 학습 주체(Agent)가 환경(Environment)과 상호작용으로 학습을 진행.
  2. 환경은 학습 주체에게 상태를 제공한다.
  3. 학습 주체는 의사결정(행동)을 결정하게 된다.
  4. 의사 결정에 의해 변화가 있고, 보상이 존재하게 된다.

🌟 결국 학습 주체는 상태를 보고 의사결정을 하고 그에 따른 보상이 전달되면서 좋은 의사 결정에 대해서 학습하게 된다! 그러기에 수많은 시행착오가 존재하게 된다.

⚡ 단, 학습 주체는 환경에 대해 모르는 상태로 학습하며

⚡ 적절히 학습하기 위해 시행착오가 필수적

⚡ Delayed reward : 현재의 행동이 미래의 순차적 보상에 영향을 준다.

자전거 타기 예시

  • 상태: 핸들 위치
  • 행동: 핸들, 패달 움직임 결정
  • 보상: 진행 or 넘어짐

기타 학습 방법의 관점

기존의 지도학습은 label이 주어져있는 환경에서 즉각적인 피드백으로 학습하기에 현재 데이터를 바탕으로 미래를 예측하는 것.

비지도 학습은 label이 없기에 데이터 자체에 내재된 성질을 찾아내는 것

강화학습은 label이 존재하지 않고, 환경과 상호작용을 통해 데이터(보상)을 가지고 학습하게 되는 것이기에 사전에 준비된 데이터가 아닌 상호작용으로 데이터를 얻게 된다.

댓글남기기