머신러닝(26)
-
선형 판별 분석(Linear Discriminant Analysis, LDA) > 차원축소
LDA는 Classification뿐만 아니라 차원축소에서도 활발히 활용되고 있는 방법론입니다. LDA는 Class가 존재할 때 Class가 최대한 잘 분리되도록 Discriminant direction을 찾아서 Projection을 하는 방법입니다. LDA를 활용한 차원축소의 사상은 같은 Class들의 데이터는 분산이 최소화되고 다른 Class간에는 분산이 최대화 되도록합니다. 다시 말하면 같은 Class끼리는 붙어 있게 다른 Class간에는 멀리 떨어져 있는 Vector를 찾아서 거기에 데이터들을 Projection하는 것입니다. 오른쪽에 그림과 같이 Class가 잘 구분되도록 Projection을 하는 것입니다. 먼저 Class가 2개인 경우에 어떻게 discriminant direction을 도출..
2021.02.22 -
선형 판별 분석(Linear Discriminant Analysis, LDA)
LDA와 Logistic Regression같은 경우는 각 Class에 Input x가 속할 확률을 예측/추정하는 형태로 Classification이 수행됩니다. [Linear Discriminant Analysis, LDA] 여기서 LDA는 $Pr(X|G)$를 톻한 Bayes Rule적용을 통해 X가 주어졌을 때 특정 Class에 속할확률 $Pr(G|X)$를 구하는 문제로 분류문제를 접근합니다. LDA같은 경우는, 관측수가 적고 Input X가 정규분포를 근사할 때 효과적으로 작동하게 됩니다. Bayes Rule적용을 통해 어떻게 사후 확률을 추론하는지를 정리해보도록 하겠습니다. 이 때 각 확률은 아래와 같이 표현하겠습니다. 최종적으로, 아래와 같이 X가 주어졌을 때 특정 Class에 속할확률 $Pr(..
2021.02.21 -
선형 분류 모형(Linear Methods for Classification)
Classification문제는 Input space를 Labeling된 영역으로 구분하는 것을 말합니다. 이 때 영역을 구분하는 Decision boundary들이 선형일 때 선형 분류 모형이라고 부릅니다. 주요 선형 분류 모형으로는 Linear Regression of an Indicator Matrix, Linear Discriminant Analysis(LDA), Logistic regrssion, Seperating Hyperplane(선형SVM)이 있습니다. 여기서 사실상 Linear Regression같은 경우는 Classification을 수행하기에는 많은 단점을 보유하고 있지만, Decision boundary와 Discriminant function과 같은 Classification문제..
2021.02.20 -
Dimension Reduction Method(Principal Components Regression, Partial Least Squares)
우리가 많은 Input 변수를 가지고 있을 때, Subset Selection, Shrinkage Method는 활용하는 Input 변수의 수를 줄여주는 역할을 하였습니다. 반면에 Dimension Reduction Method는 특정 Input 변수를 활용시 제거하는 것이 아니라, 우리가 가지고 있는 Input 변수의 차원을 압축하여 활용하는 방법입니다. Dimension Reduction Method는 우리가 가지고 있는 input변수 $X$의 선형결합을 통해 새로운 변수 $Z$를 만들어냅니다. 대표적인 방법으로는 Principal Components Regression(PCR), Parital Least Squares(PLS)가 있습니다. [Principa Components Regression(P..
2021.02.03 -
Shrinkage Method2(Elastic Net, LARS)
앞선 포스팅(direction-f.tistory.com/76)에서 Shrinkage Method로 Ridge Regressio과 Lasso Regression을 다루었습니다. Ridge Regression같은 경우에는 변수를 선택해주는 모형이라고 보기 어려우나 추정 계수가 Analytics Solution을 가지는 점, 그리고 변수간 상관관계가 있을 때도 상대적으로 잘 작동하는 점에 있어서 장점이 있습니다. Lasso Regression과 같은 경우에는, Closed form solution을 가지고 있지 않기 때문에 해를 구하는데 상대적으로 큰 Resource가 소요될 수 있고 변수간 상관관계가 높으면 하나의 변수만 채택하고 나머지는 0으로 만들어 버리는 경우가 있어 상관관계가 높은 데이터 셋에 적용하..
2021.01.24 -
Shrinkage Method
앞선 포스팅(direction-f.tistory.com/75)에서 다루었던 Subset Selection은 Dicrete Process이기 때문에 중요한 변수가 무시 될수도 있고, 중요하지 않은 변수가 중요하게 판단 될 수 도 있습니다. 따라서 이러한 단점을 보완하기 위한 방법은 Shrinkage Method가 있습니다. 이 는 Continuous Process이고 우리가 Control하기 어려운 변동이 클 때 효과적으로 작동하게 됩니다. Shrinkage Method에는 대표적으로 Ridge regression과 Lasso Regression이 있습니다. [Ridge Regression] Ridge Regression은 least squares와 유사항 형태를 가지고 있습니다. 다만 우리가 추정하고자 ..
2021.01.23