Deep Reinforcement Learning
-
Planning by Dynamic Programming (by Silver)Deep Reinforcement Learning 2022. 3. 29. 20:25
오늘 포스트에서는 Dynamic Programming 관점에서 Prediction 및 Control 문제에 대해 간략하게 소개하도록 하겠다. Dynamic Programming이란, 쉽게 설명하자면 한번에 풀기 어려운 큰 문제를 작은 여러 문제들로 나눠서 푸는 것을 의미한다. Subproblem으로 나눈 후, 그 작은 문제들에 대한 해답을 찾고 그 해답들을 모아서 큰 문제를 해결한다. Dynamic Programming 방법론이 되기 위해선 아래와 같은 2가지 조건이 필요하다. 1. Optimal Substructure 전체 큰 문제에 대한 obtimal solution이 subproblem들로 나뉠 수 있어야 한다. 2. Overlapping subproblems 한 subproblem을 풀면 그 문제..
-
1. Introduction to Reinforcement LearningDeep Reinforcement Learning 2022. 2. 28. 14:17
오늘 포스트에서는 강화학습에 대한 특성과 용어정리를 하고 넘어가겠다. 1. Reinforcement Learning(강화학습)의 다른 ML paradigm과 다른 특징 Supervisor없이, 오직 reward signal만이 있다. → 강화학습은 알아서 reward받는 것을 maximize하는, optimal에 도달하는 방법론이다! Feedback(reward)은 즉각적으로 오지 않을 수 있다. (delay될 수 있다.) 각각의 action의 순서가 유의미하다. Agent들의 action은 들어오는 subsequent한 data에 영향을 미친다. 2. 용어정리 ● Rewards Reward는 step t에서 agent가 얼마나 잘 하고 있는지에 대한 feedback signal로, 벡터가 아닌 스칼라 ..
-
-
Markov Decision ProcessDeep Reinforcement Learning 2021. 11. 17. 20:55
랩실 언니의 작업을 이어받아서 하는 이번 프로젝트는 reinforcement learning을 이용한 object localization이다. supervised learning을 주로 접해본 나로는 각 state마다 정답 없이 보상만 주어지는 강화학습의 알고리즘이 신기했다. 기본적인 강화학습 알고리즘 공부를 하다 강화학습과 Markov Deicision Process (MDP)는 매우 밀접한 관계가 있음을 알게 되었다. 따라서 이번 포스트에서는 강화학습을 설명하기 앞서, Markov Decision Process가 무엇인지 먼저 간단하게 살펴보겠다. 1. Markov Process Random process (어떤 실험결과를 하나의 함수에 대응시키는 것으로, 하나의 값에 매핑하는 random varia..