최대 1 분 소요

해당 강의는 K-MOOC의 “강화학습의 수학적 기초와 알고리즘 이해” 수업을 수강하며 기록한 내용입니다. 강의는 링크에서 확인하실 수 있습니다.

외판원 문제

: Traveling Salesman Problem(TSP)

여러개 도시 간 거리가 주어졌을 때 정확히 한번씩 방문하는 최단거리를 찾는 문제다!

예시

  • 쓰레기차 수거 경로
  • 택배 차량들의 경로
  • 물류 창고에서 경로 문제
  • 회로 장비 최적화

문제 정의

비용

$C$ : 두 node 간 이동(행동)에 따른 비용을 적은 행렬

상태

최단 경로 문제와 유사하며 다음과 같은 요소가 필요하다

  • 현재 나의 상태 : $n$
  • 이전에 방문 했던 곳 : $N$

행동

방문하지 않은 도시 중 어느 도시를 방문할지 결정

$n^{`} \in TOTAL - (N\cup {n})$

가치 함수

: 현재까지 N에 속한 도시들을 방문했고, n의 위치에 있다고 할 때 나머지 방문하지 않은 도시를 방문하고 다시 원점으로 돌아가는데 걸리는 소요시간(혹은 거리)

$V(N,n) = C(n,n^{‘}) + V(N\cup {n}, n’)$

⚡ 결국 n으로 간다는 선택을 했을 때 남은 비용을 계산하는 것이 가치함수를 말하는 것 ⚡ $C(n,n^{‘})$ 는 그 선택을 했을 때 다음 이동 경로 중 하나($n^{‘}$)를 선택했을 때의 비용 ⚡ $V(N\cup{n},n’)$는 $n^{‘}$을 선택했을 때 남은 비용을 말하는 것!

☝ 즉, 매 상태마다 여러 옵션이 있으면 최적(가장 작은 값)의 값을 선택하게 된다!!

댓글남기기