모델 평가 및 선정 > In-Sample Prediction

2021. 5. 13. 23:41머신러닝

반응형

모델을 선정하는데 흔히 우리가 활용하는 지표로써, AIC, BIC, $C_p$가 있습니다. 이 지표들을 설명하기 전에 먼저, Optimism과 In-sample error에 대해서 간단히 정리하고 넘어가도록 하겠습니다.

먼저 In-sample error에 대해서 정리하기에 앞서, Training Set이 (x,y)로 주어졌다고 해보겠습니다.

그렇다면 Training Error는 L(y, f(x))가 될 것입니다. 그리고  training point x에 대해서 새로운 관측값 $y^o$가 나타났다고 가정해보면, 새로운 관측값에 대해서 Prediction을 수행한 것에 대한 Error는 L($y^o$, f(x))가 될 것이고, 이를 In-Sample Prediction이라고 합니다.(https://stats.stackexchange.com/questions/228394/what-is-the-difference-between-in-sample-error-and-training-error-and-intuition

Training Error를 $\overline{err}$, In-sample error를 $Err_{in}$이라고 한다면, Optimisim은 아래와 같이 정의 됩니다.

즉, Training Error와 In-sample Error와의 차이이며, 일반적으로 Training set에 f(x)가 더 적합하게 Fitting이 되기 때문에 optimism은 양수를 가지게 됩니다.

optimism은 또한 아래와 같이 정의 됩니다. (증명: https://stats.stackexchange.com/questions/88912/optimism-bias-estimates-of-prediction-error)

 

위의 식을 보시면 아시겠지만, training error가 낮으면(Training 데이터에 overfitting이 되는 경우) optimism이 올라가고 training error가 높으면(Training 데이터에 unerfitting이 되는 경우), optimism이 낮아지게 되어 In-sample error을 최소화를 위해 모형의 복잡도에 대한 trade-off 관계가 중요함을 인지할 수 있게 됩니다.

처음에 언급했던 내용으로 돌아가보면 이러한 trade-off 관계를 고려하여 모델을 선정하는데 활용하는 대표적인 지표가 AIC, BIC, $C_p$입니다. 

먼저 이번 포스팅에서는 AIC에 대해서 설명하도록 하겠습니다. 앞서 정리한 것처럼 AIC는 Overfitting과 Underfitting 사이에서 얼마나 우리 모델이 적절하게 Fitting 됐는지를 나타내는 지표입니다. 

AIC는 낮을 수록 더 적합한 모형임을 뜻하며, AIC 정의는 아래와 같습니다.

K는 활용하는 independent 변수의 개수이고 L은 likelihood입니다. likelihood는 아래와 같이 정의됩니다.(이산형 분포에서, https://en.wikipedia.org/wiki/Likelihood_function)

우리는 x라는 Input 데이터가 주어졌을 때, 해당 데이터를 가장 잘 설명하는 Parameter가 무엇인지 찾을 때 likelihood를 활용할 수 있으며, likelihood가 높을수록 Input 데이터를 잘 설명하는 Parameter를 찾은 것으로 이해할 수 있습니다.

다만 AIC에서는 변수의 개수에 대해 Penalty term인 K가 주어지는데, 이것이 trade-off 관계를 반영하기 위함입니다. likelihood를 높임으로써 input데이터에 대한 설명력을 더 키우는 것보다 변수가 늘어나는 것에 대한 Penalty가 더 크다면 AIC값이 커지게 됩니다.

반응형