선형 분류 모형(Linear Methods for Classification)

2021. 2. 20. 21:11머신러닝

반응형

Classification문제는 Input space를 Labeling된 영역으로 구분하는 것을 말합니다. 이 때  영역을 구분하는 Decision boundary들이 선형일 때 선형 분류 모형이라고 부릅니다.

주요 선형 분류 모형으로는 Linear Regression of an Indicator Matrix, Linear Discriminant Analysis(LDA), Logistic regrssion, Seperating Hyperplane(선형SVM)이 있습니다.

여기서 사실상 Linear Regression같은 경우는 Classification을 수행하기에는 많은 단점을 보유하고 있지만,  Decision boundary와 Discriminant function과 같은 Classification문제를 해결하기 위한 기본적인 개념을 이해하기 위해서, 우선적으로 Classification문제를 해결하기 위해 Linear Regression를 어떻게 활용할 수 있는지에 대해서 정리하도록 하겠습니다.

[Linear Regression of an Indicator Matrix]

Linear Regression을 Classification문제에 활용하는 기본 사상은 Largest fit입니다. 예를 들어 K개의 Class가 있다고 가정해보겠습니다. 먼저 각 Class를 나타내는 Indicator Matrix를 만듭니다. Indicator Matrix는 Column은 k개이고 만약 input이 가지는 class에 대응하여 각 Column 값은 0 또는 1입니다. Indicator Matrix는 아래 그림과 같이 만들어집니다.

 Indicator Matrix를 만들고 나면 각 Column을 종속변수로 활용하여 k개의 선형 모형을 Fitting합니다.

위의 모형에서  Class k와 Class l의 Decision Boundary는 아래와 같은 Set으로 정의됩니다.

이 때 Linear discriminant function은 아래와 같습니다.

위 모형에서 $\beta$값들을 추정하는 것은 기존의 회귀분석과 동일합니다.

$Y$는 k column을 가지는 Indicator Matrix이고 $X$는 intercept를 포함한 Input변수들입니다. 이렇게 되면 k개의 Regression Model을 Fitting한 것과 같습니다.

새로운 Input이 들어왔을 때  Linear Regression Model을 이용하여  Class를 구분하는 방법은 k개의 Regression Model중 결과값이 가장 높은 것을 선택하는 것입니다. 즉 회귀분석의 결과값을 input이 X일때 k class의 속할 확률 $Pr(G=k|X=x)$로 간주하는 것입니다.

다만 위에서 말한것처럼 Linear Regression을 활용하는 것은 큰 단점을 가지고 있는데, Regression결과 값은 음수가 나올 수도 있고 1이 넘을 수도 있습니다. 그렇기 때문에 Linear Regression이 Classfication에서 제대로 작동하는 것에 대한 보장을 할 수 없습니다. 또한 분류할 Class가 2개라면 Linear Regression으로 분류가 될 수도 있지만 분류되어야 하는 Class가 많아지면 완전히 분류를 하지 못하는 영역이 발생할 수 도 있습니다.

반응형