[금융전략을 위한 머신러닝] 6. 강화학습

Posted Oct 1, 2024 Updated Oct 8, 2024

By Sun

2 min read

아래 내용은 “금융전략을 위한 머신러닝” 책을 공부하며 정리한 내용입니다.

Chapter 09. 강화 학습

강화 학습의 개념

강화 학습 구성요소

강하 학습의 목표는 실험적 시도와 비교적 간단한 피드백 루프를 통해 최적의 전략을 학습하는 것

가치 함수와 Q 가치를 즉각적인 보상과 할인된 미래 가치로 분해하흔 방정식 집합을 나타냄

보상함수(R), 미래 보상(G), 가치함수, Q가치의 관계를 사용해 도출

벨만 방정식

MDP 는 다섯가지 요소로 구성된다.

S: 상태 집합 A: 일련의 장독 P: 전환 확률 R: 보상 함수 y: 미래 보상에 대한 할인 계수

마코프 의사결정 프로세스

This post is licensed under CC BY 4.0 by the author.