Yejin Kim

Study it and apply all!
Like to see error code because it is much better than warrning!

[KMOOC 강화학습] Week 03-2 TSP

최대 1 분 소요

해당 강의는 K-MOOC의 “강화학습의 수학적 기초와 알고리즘 이해” 수업을 수강하며 기록한 내용입니다. 강의는 링크에서 확인하실 수 있습니다.

개괄

동적계획법

최단경로 문제(shortest path problem)
외판원 문제(Traveling Salesman Probelm, TSP)
배낭문제(knapsack problem)

외판원문제란?

여러개의 도시와 사이 거리를 알 때 가장 짧은 경로를 찾는 문제로, 물류 최적화 문제나 택배 배송 문제와도 연결되어 있다.

Problem Formulation

위의 식처럼 $(i,j)$ 간 비용을 나타내는 행렬로 표현할 수 있다.

상태: 이전에 어디 방문했고, 어디에 있는
- $N$ : 이전까지 방문했던 도시들의 집합
- $n$ : 현재 위치하는 도시
행동: 남은 도시중 어느 도시로 갈지 결정
- $n’ \in TOTAL- (N\cup set(n))$
가치함수: $N$의 도시를 다녔고, $n$에 있을 때 남은 도시를 다 방문하고 다시 원점으로 돌아가는데 걸리는 소요시간
- $V(N, n)= \min_{n’} [C(n,n’) + V(N\cup set(n), n’)] $
- 다음의 상태 : $V(N\cup set(n), n’)$

Solution

젤 마지막 상태의 가치함수는 0!
직전 상태 계산법
- ex. ({1,2,3}, 4) : 여기서 $n$은 4이며 남은 $n’$은 1이니 $C(n,n’)=6$
- $V(N\cup set(n), n’)=V({1,2,3,4}, \phi)=0$

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

[Paper Review] TRPO and PPO

2 분 소요

🧠 Paper Review: TRPO & PPO

[Paper] Mamba: Linear-Time Sequence Modeling with Selective State Spaces

최대 1 분 소요

This is a brief review for “Mamba: Linear-Time Sequence Modeling with Selective State Spaces”. You can see the paper at this paper link.

[SSM] Modeling Sequences with Structured State Spaces - Part I

10 분 소요

1.1 Deep sequence model Definition 1.1 (Informal). We use sequence model to refer to a parameterized map on sequences $y=f_\theta(x)$ where inputs and o...

[LLM-RL] Lecture 2: Value Functions

2 분 소요

Overview. This post focuses on Value Functions in reinforcement learning. We begin with a quick recap of the RL setup, then introduce state-value / action-va...