[KMOOC 강화학습] Week 02-2 외판원 문제

최대 1 분 소요

해당 강의는 K-MOOC의 “강화학습의 수학적 기초와 알고리즘 이해” 수업을 수강하며 기록한 내용입니다. 강의는 링크에서 확인하실 수 있습니다.

외판원 문제

: Traveling Salesman Problem(TSP)

여러개 도시 간 거리가 주어졌을 때 정확히 한번씩 방문하는 최단거리를 찾는 문제다!

예시

쓰레기차 수거 경로
택배 차량들의 경로
물류 창고에서 경로 문제
회로 장비 최적화

문제 정의

비용

$C$ : 두 node 간 이동(행동)에 따른 비용을 적은 행렬

상태

최단 경로 문제와 유사하며 다음과 같은 요소가 필요하다

현재 나의 상태 : $n$
이전에 방문 했던 곳 : $N$

행동

방문하지 않은 도시 중 어느 도시를 방문할지 결정

$n^{`} \in TOTAL - (N\cup {n})$

가치 함수

: 현재까지 N에 속한 도시들을 방문했고, n의 위치에 있다고 할 때 나머지 방문하지 않은 도시를 방문하고 다시 원점으로 돌아가는데 걸리는 소요시간(혹은 거리)

$V(N,n) = C(n,n^{‘}) + V(N\cup {n}, n’)$

⚡ 결국 n으로 간다는 선택을 했을 때 남은 비용을 계산하는 것이 가치함수를 말하는 것 ⚡ $C(n,n^{‘})$ 는 그 선택을 했을 때 다음 이동 경로 중 하나($n^{‘}$)를 선택했을 때의 비용 ⚡ $V(N\cup{n},n’)$는 $n^{‘}$을 선택했을 때 남은 비용을 말하는 것!

☝ 즉, 매 상태마다 여러 옵션이 있으면 최적(가장 작은 값)의 값을 선택하게 된다!!

Twitter Facebook LinkedIn

Yejin Kim

[KMOOC 강화학습] Week 02-2 외판원 문제

외판원 문제

예시

문제 정의

비용

상태

행동

가치 함수

공유하기

댓글남기기

참고

[Paper Review] TRPO and PPO

[Paper] Mamba: Linear-Time Sequence Modeling with Selective State Spaces

[SSM] Modeling Sequences with Structured State Spaces - Part I

[LLM-RL] Lecture 2: Value Functions