모델 평가 및 선정 > In-Sample Prediction

모델 평가 및 선정 > In-Sample Prediction

2021. 5. 13. 23:41ㆍ머신러닝

모델을 선정하는데 흔히 우리가 활용하는 지표로써, AIC, BIC, $C_{p}$ 가 있습니다. 이 지표들을 설명하기 전에 먼저, Optimism과 In-sample error에 대해서 간단히 정리하고 넘어가도록 하겠습니다.

먼저 In-sample error에 대해서 정리하기에 앞서, Training Set이 (x,y)로 주어졌다고 해보겠습니다.

그렇다면 Training Error는 L(y, f(x))가 될 것입니다. 그리고 training point x에 대해서 새로운 관측값 $y^{o}$ 가 나타났다고 가정해보면, 새로운 관측값에 대해서 Prediction을 수행한 것에 대한 Error는 L( $y^{o}$ , f(x))가 될 것이고, 이를 In-Sample Prediction이라고 합니다.(https://stats.stackexchange.com/questions/228394/what-is-the-difference-between-in-sample-error-and-training-error-and-intuition)

Training Error를 $\overset{―}{e r r}$ , In-sample error를 $E r r_{i n}$ 이라고 한다면, Optimisim은 아래와 같이 정의 됩니다.

즉, Training Error와 In-sample Error와의 차이이며, 일반적으로 Training set에 f(x)가 더 적합하게 Fitting이 되기 때문에 optimism은 양수를 가지게 됩니다.

optimism은 또한 아래와 같이 정의 됩니다. (증명: https://stats.stackexchange.com/questions/88912/optimism-bias-estimates-of-prediction-error)

위의 식을 보시면 아시겠지만, training error가 낮으면(Training 데이터에 overfitting이 되는 경우) optimism이 올라가고 training error가 높으면(Training 데이터에 unerfitting이 되는 경우), optimism이 낮아지게 되어 In-sample error을 최소화를 위해 모형의 복잡도에 대한 trade-off 관계가 중요함을 인지할 수 있게 됩니다.

처음에 언급했던 내용으로 돌아가보면 이러한 trade-off 관계를 고려하여 모델을 선정하는데 활용하는 대표적인 지표가 AIC, BIC, $C_{p}$ 입니다.

먼저 이번 포스팅에서는 AIC에 대해서 설명하도록 하겠습니다. 앞서 정리한 것처럼 AIC는 Overfitting과 Underfitting 사이에서 얼마나 우리 모델이 적절하게 Fitting 됐는지를 나타내는 지표입니다.

AIC는 낮을 수록 더 적합한 모형임을 뜻하며, AIC 정의는 아래와 같습니다.

K는 활용하는 independent 변수의 개수이고 L은 likelihood입니다. likelihood는 아래와 같이 정의됩니다.(이산형 분포에서, https://en.wikipedia.org/wiki/Likelihood_function)

우리는 x라는 Input 데이터가 주어졌을 때, 해당 데이터를 가장 잘 설명하는 Parameter가 무엇인지 찾을 때 likelihood를 활용할 수 있으며, likelihood가 높을수록 Input 데이터를 잘 설명하는 Parameter를 찾은 것으로 이해할 수 있습니다.

다만 AIC에서는 변수의 개수에 대해 Penalty term인 K가 주어지는데, 이것이 trade-off 관계를 반영하기 위함입니다. likelihood를 높임으로써 input데이터에 대한 설명력을 더 키우는 것보다 변수가 늘어나는 것에 대한 Penalty가 더 크다면 AIC값이 커지게 됩니다.

'머신러닝' 카테고리의 다른 글

모델 평가 및 선정 > Cross-Validation (0)	2021.06.10
모델 평가 및 선정 > In-Sample Prediction(2/2) (0)	2021.05.30
모델 평가 및 선정 > Bias, Variance (0)	2021.05.06
커널 밀도 추정 기반 Classification (0)	2021.04.19
커널 밀도 추정(Kernel Density Estimation, KDE) (0)	2021.04.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

방향 분석가

방향 분석가

태그

최근글

댓글

공지사항

아카이브

'머신러닝' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역