머신러닝(26)
-
모델 평가 및 선정 > Cross-Validation
앞서 설명했던 AIC, BIC, SRM과 같은 기준값을 활용하는 것보다 더 활발하게 활용되고 있는 모형 선택 방법은 Cross-Validation입니다. 가장 적용하기가 용이하고, 유연하게 활용할 수 있으므로 많은 사람들이 선호하는 방법입니다. 특히 Likelihood나 추정한 Parameter나 error에 대한 분포를 확인하기 어려운 경우에도 활용할 수 있다는 장점이 있습니다. [K-Fold Cross-Validation] 데이터가 충분하다면 K-fold Cross-Validation은 가장 많이 적용되고 있는 방법론입니다. 데이터를 비슷한 사이즈의 K그룹으로 나누어서 검증하는 방안입니다. 예를 들어 데이터를 {A,B,C,D,E} 5개 그룹으로 나눈다면, {A,B,C,D} 데이터로 학습하고 {E} 데..
2021.06.10 -
모델 평가 및 선정 > In-Sample Prediction(2/2)
이번 포스팅에서는 앞의 포스팅에서 언급했던 모델 Selection 방안에 대해 이어서 정리하도록 하겠습니다. 결국 올바른 모델을 선정 한다는것은 over-fitting도 under-fitting도 되지 않고 새로운 데이터에 대해서 오차가 적도록 작동하는 모델을 찾는 것입니다. 이번 포스팅에서는 $C_p$, BIC, SRM(VC-dimension)에 대해서 간략히 정리하도록 하겠습니다.(AIC: https://direction-f.tistory.com/93) [$C_p$ statistic] 먼저 $C_p$ statistic은 멜로우즈 $C_p$(Malloiws $C_p$)라고 불리는 값입니다. $C_p$는 아래와 같이 정의 됩니다. p는 활용한 변수 의 수, n은 관측값의 개수, $RSS_p$는 p개의 변..
2021.05.30 -
모델 평가 및 선정 > In-Sample Prediction
모델을 선정하는데 흔히 우리가 활용하는 지표로써, AIC, BIC, $C_p$가 있습니다. 이 지표들을 설명하기 전에 먼저, Optimism과 In-sample error에 대해서 간단히 정리하고 넘어가도록 하겠습니다. 먼저 In-sample error에 대해서 정리하기에 앞서, Training Set이 (x,y)로 주어졌다고 해보겠습니다. 그렇다면 Training Error는 L(y, f(x))가 될 것입니다. 그리고 training point x에 대해서 새로운 관측값 $y^o$가 나타났다고 가정해보면, 새로운 관측값에 대해서 Prediction을 수행한 것에 대한 Error는 L($y^o$, f(x))가 될 것이고, 이를 In-Sample Prediction이라고 합니다.(https://stats...
2021.05.13 -
모델 평가 및 선정 > Bias, Variance
학습한 모델의 성능을 평가하는 것에 중요성은 모두가 공감할 것이라고 생각합니다. 특히 새로운 데이터에도 일관된 성능을 가지는 모델을 구현하는 것은 해당 모델의 성능과 아주 밀접한 관련이 있습니다. 이러한 일관된 성능과 관련된 개념이 Bias, Variance 그리고 Model Complexity 입니다. Bias와 Variance와 관련하여 아주 유명한 그림 하나를 살펴보겠습니다. Bias는 Underfitting과 관련된 것으로, 적합한 성능을 내기 위한 정보들을 모두 활용하지 못하여 정확성이 떨어진 것을 말합니다. Variance는 Overfitting과 관련된 것으로 너무 많은 정보를 고려한 나머지 Training set에만 잘 맞는 모형을 적합한 것입니다. 일반적으로 Model Complexity..
2021.05.06 -
커널 밀도 추정 기반 Classification
커널 밀도를 추정하게 되면 우리는 데이터에 대한 확률 분포를 추정한 것과 같게 됩니다. 따라서 LDA(direction-f.tistory.com/80?category=954338)에서 분포를 활용하여 Classification을 수행한 것과 동일한 원리로 Classification을 수행할 수 있게 됩니다. 즉 Bayes Rule을 적용하여 Classification을 수행하게 됩니다. Bayes Rule에 따라 아래와 같이 정리되고 이 때 확률은 다음과 같이 정의됩니다. 최종적으로 $Pr(G|X)$는 $Pr(X|G)$와$Pr(G=k)$에 비례하게 되므로, 최종적으로 아래와 같이 정리 됩니다. LDA와 다른 점은 우리는 $f_k(x)$를 KDE로 추정하여 활용한다는 것입니다. Python을 활용하여 추정..
2021.04.19 -
커널 밀도 추정(Kernel Density Estimation, KDE)
Kernel density estimation은 unsupervised learning으로, 밀도 추정 방법 중에 하나입니다. 우리가 가장 흔히 알고 있는 밀도 추정 방법 중에 하는 히스토그램입니다. 다만 히스토그램은 각 계급간 불연속적 이고 계급의 크기나 시작위치에 따라 형태가 쉽게 달라지는 단점이 있습니다. KDE는 말그대로 Kernel을 활용하는 것으로 Kernel Regression본 것과 같이 연속적입니다. 따라서 부드러운 밀도 함수를 도출해낼 수 있습니다. KDE에서 분포를 찾아가는 과정은 아래와 같습니다. Kernel Regression에서 Kernel을 활용한 기본적인 개념은 나(기준)와 가까운 것에 가중치를 주는 것이였습니다. KDE에서도 마찬가지입니다. $x_0$이 있다고 가정해보면 $..
2021.04.12