[금융전략을 위한 머신러닝] 3. 지도 학습: 회귀 시계열 모델
아래 내용은 “금융전략을 위한 머신러닝” 책을 공부하며 정리한 내용입니다.
Chapter 05. 지도 학습: 회귀(시계열 모델)
시계열 모델
시계열 명세
추세 요소
추세는 시계열에서 일관된 방향으로의 이동을 나타낸다.
계절 요소
휴가철이나 기온과 관련된 계절적 변동이 따른다.
자기 상관과 고정성
자기 상관
관측치 간의 유사성을 의미하는 것으로 관측치 간의 시간 지연의 함수로 나타낸다.
자기 회귀 모델에서는 관심 있는 변수를 그 변수의 과거 값을 선형적으로 조합해 예측한다.
자기 회귀 모델은 여러 시계열 패턴을 처리한느 데 놀라울 만큼 유연하다.
고정성
시계열의 통계적 특성이 시간에 걸쳐 변하지 않는다면, 그 시계열은 고정적이라고 한다. 따라서 추세나 계절성을 갖는 시계열은 고정적이지 않다. 반면 화이트 노이즈 시계열은 고정적이다. 왜냐하면 임의의 시간에 관찰할 때 항상 비슷한 패텅을 보여 주므로 관찰이 무의미하기 때문이다.
고정 도표에서는 평균, 분산, 공분산이 모두 시간에 따라 일정하다.
시계열 예측 모델을 사용하기 위해 비고정 계열을 고정 계열로 변환하여 모델 구현을 쉽게 한다.
기존 시계열 모델
ARIMA
고정성을 자기 회귀와 이동평균 모델을 합친 것.
여러 변형 종류
- ARIMAX : 외생 변수 추가
- SARIMA : 계절성 요소 모델링 목표
- VARMA : 다변수 확장
시계열 모델링에 대한 딥러닝 접근방식
ARIMA와 같은 기존 시계열 모델은 많은 문제에 잘 적용되고 효과적이다. 기존의 시계열 모델은 선형 함수이거나 선형 함수의 단순 변형이다. 따라서 왜곡된 데이터나 시간의존성과 같은 매개변수가 필요한 경우 성능이 좋지 않다.
최근 순환 신경망(RNN)이 많은 주목을 받았다. 이방법은 구조와 비선형성 같은 패턴을 찾고 다중 입력 변수로 문제를 모델링한다. 따라서 상대적으로 불완전한 데이터에 안정적이다. RNN 모델은 한 단계의 연산에서 얻은 출력을 다음 단계의 연산을 위한 입력으로 사용해 반복적으로 전환되는 상태를 유지한다.
이런 딥러닝 모델은 ARIMA와 같은 기존 시계열 모델과 비슷하게 과거에 얻은 데이터를 사용해 미래 예측을 수행하기 때문에 시계열 모델이라고 할 수 있다. 따라서 금융에서 이런 딥러닝 모델을 적용할 수 있는 응용 범위는 매우 넓다 !
순환 신경망
신경망에 ‘순환’이 붙은 이유는 순서의 각 요소에서 같은 일을 수행하고 요소의 출력이 이전 요소의 연산에 의존하기 때문이다. RNN 모델을 메모리가 있어서 일정 시점까지 연산한 결과의 정보를 저장한다.
장단기 메모리
장단기 메모리(LSTM)은 RNN의 한 종류로 장기 의존 문제를 해결하기 위해 설계되었다. 오랜 기간 동안 정보를 기억하는 것은 LSTM모델의 기본 기능이다.
인공 신경망층을 기반으로 한 게이트를 이용해 셀로 전달하는 데이터를 통과시키거나 제거할 수 있다.
망각 게이트 : 1인 경우 완전히 기억, 0인 경우 완전히 잊어 버림
입력 게이트 : 셀에 저장할 세로운 데이터 선택
출력 게이트 : 각 셀에서 무엇을 생성할지 결정
학습과 구현 측면에서 LSTM은 ARIMA 모델에 비해 상당히 많은 미세조정 옵션을 제공한다. 기존 시계열 모델에 비해 장점이 많은 반면, 복잡하고 훈련하기가 어렵다.
지도 학습 모델을 위한 시계열 데이터 수정
시계열은 시간 지수로 정렬된 순차적으로 연속된 수이다. 지도 학습에는 입력 변수와 출력 변수가 있다. 시계열 데이터셋으로 수가 연속될 때, 일반적인 지도 학습 문제처럼 데이터를 예측하는 변수와 예측되는 집합으로 개주성할 수 있다. 이전 시간 단계를 입력 변수로 정하고 다음 시간 단계를 출력 변수로 정해 재구성하는 것이다.