모델 평가 및 선정 > In-Sample Prediction

2021. 5. 13. 23:41머신러닝

반응형

모델을 선정하는데 흔히 우리가 활용하는 지표로써, AIC, BIC, Cp가 있습니다. 이 지표들을 설명하기 전에 먼저, Optimism과 In-sample error에 대해서 간단히 정리하고 넘어가도록 하겠습니다.

먼저 In-sample error에 대해서 정리하기에 앞서, Training Set이 (x,y)로 주어졌다고 해보겠습니다.

그렇다면 Training Error는 L(y, f(x))가 될 것입니다. 그리고  training point x에 대해서 새로운 관측값 yo가 나타났다고 가정해보면, 새로운 관측값에 대해서 Prediction을 수행한 것에 대한 Error는 L(yo, f(x))가 될 것이고, 이를 In-Sample Prediction이라고 합니다.(https://stats.stackexchange.com/questions/228394/what-is-the-difference-between-in-sample-error-and-training-error-and-intuition

Training Error를 err, In-sample error를 Errin이라고 한다면, Optimisim은 아래와 같이 정의 됩니다.

즉, Training Error와 In-sample Error와의 차이이며, 일반적으로 Training set에 f(x)가 더 적합하게 Fitting이 되기 때문에 optimism은 양수를 가지게 됩니다.

optimism은 또한 아래와 같이 정의 됩니다. (증명: https://stats.stackexchange.com/questions/88912/optimism-bias-estimates-of-prediction-error)

 

위의 식을 보시면 아시겠지만, training error가 낮으면(Training 데이터에 overfitting이 되는 경우) optimism이 올라가고 training error가 높으면(Training 데이터에 unerfitting이 되는 경우), optimism이 낮아지게 되어 In-sample error을 최소화를 위해 모형의 복잡도에 대한 trade-off 관계가 중요함을 인지할 수 있게 됩니다.

처음에 언급했던 내용으로 돌아가보면 이러한 trade-off 관계를 고려하여 모델을 선정하는데 활용하는 대표적인 지표가 AIC, BIC, Cp입니다. 

먼저 이번 포스팅에서는 AIC에 대해서 설명하도록 하겠습니다. 앞서 정리한 것처럼 AIC는 Overfitting과 Underfitting 사이에서 얼마나 우리 모델이 적절하게 Fitting 됐는지를 나타내는 지표입니다. 

AIC는 낮을 수록 더 적합한 모형임을 뜻하며, AIC 정의는 아래와 같습니다.

K는 활용하는 independent 변수의 개수이고 L은 likelihood입니다. likelihood는 아래와 같이 정의됩니다.(이산형 분포에서, https://en.wikipedia.org/wiki/Likelihood_function)

우리는 x라는 Input 데이터가 주어졌을 때, 해당 데이터를 가장 잘 설명하는 Parameter가 무엇인지 찾을 때 likelihood를 활용할 수 있으며, likelihood가 높을수록 Input 데이터를 잘 설명하는 Parameter를 찾은 것으로 이해할 수 있습니다.

다만 AIC에서는 변수의 개수에 대해 Penalty term인 K가 주어지는데, 이것이 trade-off 관계를 반영하기 위함입니다. likelihood를 높임으로써 input데이터에 대한 설명력을 더 키우는 것보다 변수가 늘어나는 것에 대한 Penalty가 더 크다면 AIC값이 커지게 됩니다.

반응형