2021. 5. 13. 23:41ㆍ머신러닝
모델을 선정하는데 흔히 우리가 활용하는 지표로써, AIC, BIC, $C_p$가 있습니다. 이 지표들을 설명하기 전에 먼저, Optimism과 In-sample error에 대해서 간단히 정리하고 넘어가도록 하겠습니다.
먼저 In-sample error에 대해서 정리하기에 앞서, Training Set이 (x,y)로 주어졌다고 해보겠습니다.
그렇다면 Training Error는 L(y, f(x))가 될 것입니다. 그리고 training point x에 대해서 새로운 관측값 $y^o$가 나타났다고 가정해보면, 새로운 관측값에 대해서 Prediction을 수행한 것에 대한 Error는 L($y^o$, f(x))가 될 것이고, 이를 In-Sample Prediction이라고 합니다.(https://stats.stackexchange.com/questions/228394/what-is-the-difference-between-in-sample-error-and-training-error-and-intuition)
Training Error를 $\overline{err}$, In-sample error를 $Err_{in}$이라고 한다면, Optimisim은 아래와 같이 정의 됩니다.
즉, Training Error와 In-sample Error와의 차이이며, 일반적으로 Training set에 f(x)가 더 적합하게 Fitting이 되기 때문에 optimism은 양수를 가지게 됩니다.
optimism은 또한 아래와 같이 정의 됩니다. (증명: https://stats.stackexchange.com/questions/88912/optimism-bias-estimates-of-prediction-error)
위의 식을 보시면 아시겠지만, training error가 낮으면(Training 데이터에 overfitting이 되는 경우) optimism이 올라가고 training error가 높으면(Training 데이터에 unerfitting이 되는 경우), optimism이 낮아지게 되어 In-sample error을 최소화를 위해 모형의 복잡도에 대한 trade-off 관계가 중요함을 인지할 수 있게 됩니다.
처음에 언급했던 내용으로 돌아가보면 이러한 trade-off 관계를 고려하여 모델을 선정하는데 활용하는 대표적인 지표가 AIC, BIC, $C_p$입니다.
먼저 이번 포스팅에서는 AIC에 대해서 설명하도록 하겠습니다. 앞서 정리한 것처럼 AIC는 Overfitting과 Underfitting 사이에서 얼마나 우리 모델이 적절하게 Fitting 됐는지를 나타내는 지표입니다.
AIC는 낮을 수록 더 적합한 모형임을 뜻하며, AIC 정의는 아래와 같습니다.
K는 활용하는 independent 변수의 개수이고 L은 likelihood입니다. likelihood는 아래와 같이 정의됩니다.(이산형 분포에서, https://en.wikipedia.org/wiki/Likelihood_function)
우리는 x라는 Input 데이터가 주어졌을 때, 해당 데이터를 가장 잘 설명하는 Parameter가 무엇인지 찾을 때 likelihood를 활용할 수 있으며, likelihood가 높을수록 Input 데이터를 잘 설명하는 Parameter를 찾은 것으로 이해할 수 있습니다.
다만 AIC에서는 변수의 개수에 대해 Penalty term인 K가 주어지는데, 이것이 trade-off 관계를 반영하기 위함입니다. likelihood를 높임으로써 input데이터에 대한 설명력을 더 키우는 것보다 변수가 늘어나는 것에 대한 Penalty가 더 크다면 AIC값이 커지게 됩니다.
'머신러닝' 카테고리의 다른 글
모델 평가 및 선정 > Cross-Validation (0) | 2021.06.10 |
---|---|
모델 평가 및 선정 > In-Sample Prediction(2/2) (0) | 2021.05.30 |
모델 평가 및 선정 > Bias, Variance (0) | 2021.05.06 |
커널 밀도 추정 기반 Classification (0) | 2021.04.19 |
커널 밀도 추정(Kernel Density Estimation, KDE) (0) | 2021.04.12 |