9장

탐험형 정책과 탐사형 정책의 차이:

탐험형 정책은 전체에서 무작위로 데이터를 선정하는 방법이고, 탐사형 정책은 승률이 높은 손잡이를 주로 선택하는 방법이다

이는 적절한 균형이 필요한데, 이에 대해 적절한 균형을 제시하는 방법이 입실론 탐욕 알고리즘이다. 입실론 탐욕 알고리즘은 기본적으로 Greedy 한 성질을 가지고 있지만, 입실론 비율 만큼의 탐험을 적용하여 탐사와 탐험의 적절한 균형을 추구하는 성질을 가지고 있다.

몬테카를로 방법은 데이터를 가지고 가치 함수를 계산하며, 에피소드를 여러번 시뮬레이션하고, 각 에피소드에서 얻은 보상을 평균하여 상태의 가치를 추정하는 방식이다

또한 몬테카를로 방식은 데이터 기반으로 가치 함수를 계산하고 부트스트랩이 아니라는 장점이 존재한다.

에피소드 생성 → 보상 계산 → 가치 함수 업데이트

몬테 카를로 트리 탐색은 시뮬레이션을 통해 가능한 움직임을 평가하고, 최적의 행동을 결정하는 방법

마르코프 결정 프로세스란 상태, 행동, 보상을 정의하고 어떠한 행동을 취했을때 발생하는 상태 변환을 지배하는 규칙을 정의한다

벨만 방정식: 우변에 자기 자신을 포함하는 순환식 형태로써 상태간의 밀접한 관련성을 이용하여 가치함수를 계산한다. 또한 상태와 행동의 확률 분포를 통해 가치 함수를 갱신한다

랜덤 정책을 사용하는 알고리즘들은 Random 을 통해 탐험을 극대화 하지만, 보상이 적을 수 있다. 반면에 다양한 데이터를 습득 할 수 있다는 장점이 존재한다

에피소드란? 강화 학습(밴딧 게임)을 예시로 게임을 시작하여 마칠 때까지 기록으로써, 충분한 길이의 에피소드를 통해 최적의 정책을 알아내는데 도움이 된다

스토캐스틱 환경이란 불확실성과 무작위성이 존재하는 환경으로써 동일한 행동을 반복해도 매번 다른 결과가 출력 될 수 있다. 즉 확률적인 요소의 영향을 크게 받는다 하지만 그에 반해 결정론적 환경은 항상 동일한 결과를 출력한다

누적보상이란 현재 순간부터 에피소드가 끝날 때까지 발생한 보상의 총합

정책 반복 알고리즘: 정책 평가와 정책 개선의 단계를 반복하면서 최적의 정책을 찾는다

  1. 현재 정책을 기준으로 가치함수를 계산하여 벨만 방정식을 만족하도록 반복적으로 갱신
  2. 현재 가치함수를 기준으로 새로운 정책을 생성하고 업데이트

가치 반복 알고리즘: 가치함수를 직접 최적화하여 최적의 정책을 유도

모든 상태의 가치함수를 초기화하여, 벨만 방정식을 통해 최적의 가치함수를 갱신하고, 이를 근거로 최적의 정책을 도출하는 절차를 반복한다.

공통점 : MDP 를 기반으로 최적의 정책을 찾기 위한 알고리즘으로써 에이전트가 최적의 행동을 하게끔 도와준다.

동적 프로그래밍의 한계는 우선 항상 MDP를 알고 있어야하고, 문제의 크기가 작아야하며, 상태 전이 확률을 정확히 알고 있어야 한다. → 몬테카를로 방법을 통해 샘플 에피소드로 가치함수를 추정한다

시간차 학습 알고리즘 → 에피소드의 종료를 기다리지 않고, 인접 상태로 전환하여 가치 함수를 개선

Sarsa 알고리즘과 Q러닝 알고리즘에 대해 설명하시오

Sarsa 알고리즘은 s-a-r-s’-a’ 루프를 만들어 가치 함수를 계산하고, 현재 상태와 행동, 다음 상태와 행동, 그리고 보상을 이용하여 가치 함수를 갱신한다. -켜진 정책

Q러닝은 현재 상태와 행동의 가치 함수를 학습하여 최적의 정책을 찾는 꺼진 정책방식이며 max 연산자를 통해 가치 함수를 갱신한다

경험 리플레이 메모리의 역할 : 샘플간의 상관 관계 문제를 해결하고 과잉 적합을 방지하기 위해 사용