전체 글(115)
-
Shrinkage Method
앞선 포스팅(direction-f.tistory.com/75)에서 다루었던 Subset Selection은 Dicrete Process이기 때문에 중요한 변수가 무시 될수도 있고, 중요하지 않은 변수가 중요하게 판단 될 수 도 있습니다. 따라서 이러한 단점을 보완하기 위한 방법은 Shrinkage Method가 있습니다. 이 는 Continuous Process이고 우리가 Control하기 어려운 변동이 클 때 효과적으로 작동하게 됩니다. Shrinkage Method에는 대표적으로 Ridge regression과 Lasso Regression이 있습니다. [Ridge Regression] Ridge Regression은 least squares와 유사항 형태를 가지고 있습니다. 다만 우리가 추정하고자 ..
2021.01.23 -
Subset Selection
Subset Selection은 우리가 활용할 수 있는 Dependant variable들이 많으나 어떤 것이 유의한 변수인지 결정하기 어려울 때 활용할만한 변수를 선정하기 위해 적용하는 방법입니다. 많이 활용되고 있는 방법으로 1) Best Subset Selection 2) Stepwise Selection이 있습니다. 이러한 기계적인 방법이 변수를 선정하는데 최선의 방법이라고 보긴 어렵겠지만, 쉽게 활용할 수 있는 방법입니다. [Best Subset Selection] Best Subset Selection은 가능한 모든 모델을 고려하여 가장 좋은 모델을 선택하는 방법입니다. 가장 좋은 모델을 선택하는 Step은 아래와 같습니다. Step1) 변수의 사이즈 k=0,1,2,..,p에 대하여 각 변수 ..
2021.01.13 -
선형 모형(Linear Methods for Regression)
선형 회귀 분석은 머신러닝에서 가장 기본적인 모형 중에 하나입니다. 계량경제학에서는 선형회귀모형의 해석과 통계적 해석에 더 초점을 맞추고 있다면, 머신러닝 영역에서는 Best parameter를 추정하고 예측력을 검증하는데 좀 더 집중을 하는 것이 차이점입니다. Computer 성능이 무서울 정도로 빠르게 발전하면서, 선형 모형을 대체하는 복잡한 모형들이 많이 활용되고 있지만 여전히 선형 모형은 Sample이 적을 때, 그리고 Noise가 없는 데이터일 때 강력한 성능을 발휘하고 있으며, 종종 복잡한 모델보다 성능이 뛰어난 모습을 보이기도 합니다. 선형 회귀 모형은 Input $X_1$,$X_2$,..., $X_p$ 일 때 $E(X|Y)$의 함수를 추정하는 것입니다. 일반적인 선형회귀 모형 형식은 아래와..
2021.01.10 -
시계열(Time series) > Break
지금까지 시계열 모형을 수립하면서 우리가 가지고 있는 시계열 데이터의 패턴이나 구조적 변화에 대해서는 고려하지 않았습니다. 하지만 실제로는 금융위기, 코로나와 같은 모든 영역에 지대한 영향을 미치는 사건이 발생한다면 데이터가 가지고 있는 구조는 변화할 것입니다. 따라서 지금부터는, 이러한 구조 변화를 Detecting 하는 것과, 구조 변화가 일어난 시점을 감지했다면 구조 변화를 일으킨 사건이 어떻게 우리가 관심있어하는 영역에 얼마나 영향을 미쳤는지를 분석해보겠습니다. 먼저 이번 포스팅에서는 Break Point, 즉 변화가 일어난 구간을 어떻게 감지할 것인가에 대해 통계적 방법을 적용하여 분석해보도록 하겠습니다. Break Point를 알아보기 위해서 ADL(Autoregressive Distribut..
2021.01.05 -
시계열(Time series) > Forecasting
지금까지 다루어 왔던 ARIMA, ARIMAX, SARIMA, SARIMAX를 활용하여, 예측 문제를 해결해보도록 하겠습니다. 먼저 ARIMAX와 SARIMAX를 추정하기 위해선, Univariate 시계열 데이터뿐만 아니라 추가적인 Exogenous 변수가 필요하게 됩니다. 따라서 이번 포스팅에서 활용한 데이터는 기존의 S&P 500 index와 더불어 Nikkei index를 활용하고자 합니다.(이전 포스팅에서와 동일하게 yahoo finance- historical data에서 다운로드 받았습니다.) 최종적으로는, Nikkei index의 return을 예측해보도록 해보겠습니다. 먼저 필요한 Module을 import하고, 함수를 정의하도록 하겠습니다. import pandas as pd impor..
2021.01.02 -
시계열(Time series) > ARIMAX, SARIMA, SARIMAX
이번 포스팅에서는 지금까지 정리했던 내용과 더불어 ARIMAX, SARIMA, SARIMAX를 활용하여, 예측하는 문제를 해결해보도록 하겠습니다. 예측에 앞서 먼저 ARIMAX, SARIMA, SRIMAX개념에 대해서 간단히 정리해보도록 하겠습니다. [ARIMAX(Autoregressive Integrated Moving Average Exogenous Model)] ARIMAX는 일종의 회귀모형으로 볼 수 있습니다. 다만 AR모형과 MA모형을 동시에 포함되게 됩니다. 일반적인 AR이나 MA모형은 Univariate(단변량) 시계열을 표현하는데 적절한 모형이지만 ARIMAX모형은 추가적인 Explanatory variable을 활요함으로써 다변량 시계열 데이터를 활용하기에 적절한 모형입니다. ARIMAX..
2021.01.01