머신러닝(24)
-
선형 분류 모형(Linear Methods for Classification)
Classification문제는 Input space를 Labeling된 영역으로 구분하는 것을 말합니다. 이 때 영역을 구분하는 Decision boundary들이 선형일 때 선형 분류 모형이라고 부릅니다. 주요 선형 분류 모형으로는 Linear Regression of an Indicator Matrix, Linear Discriminant Analysis(LDA), Logistic regrssion, Seperating Hyperplane(선형SVM)이 있습니다. 여기서 사실상 Linear Regression같은 경우는 Classification을 수행하기에는 많은 단점을 보유하고 있지만, Decision boundary와 Discriminant function과 같은 Classification문제..
2021.02.20 -
Dimension Reduction Method(Principal Components Regression, Partial Least Squares)
우리가 많은 Input 변수를 가지고 있을 때, Subset Selection, Shrinkage Method는 활용하는 Input 변수의 수를 줄여주는 역할을 하였습니다. 반면에 Dimension Reduction Method는 특정 Input 변수를 활용시 제거하는 것이 아니라, 우리가 가지고 있는 Input 변수의 차원을 압축하여 활용하는 방법입니다. Dimension Reduction Method는 우리가 가지고 있는 input변수 $X$의 선형결합을 통해 새로운 변수 $Z$를 만들어냅니다. 대표적인 방법으로는 Principal Components Regression(PCR), Parital Least Squares(PLS)가 있습니다. [Principa Components Regression(P..
2021.02.03 -
Shrinkage Method2(Elastic Net, LARS)
앞선 포스팅(direction-f.tistory.com/76)에서 Shrinkage Method로 Ridge Regressio과 Lasso Regression을 다루었습니다. Ridge Regression같은 경우에는 변수를 선택해주는 모형이라고 보기 어려우나 추정 계수가 Analytics Solution을 가지는 점, 그리고 변수간 상관관계가 있을 때도 상대적으로 잘 작동하는 점에 있어서 장점이 있습니다. Lasso Regression과 같은 경우에는, Closed form solution을 가지고 있지 않기 때문에 해를 구하는데 상대적으로 큰 Resource가 소요될 수 있고 변수간 상관관계가 높으면 하나의 변수만 채택하고 나머지는 0으로 만들어 버리는 경우가 있어 상관관계가 높은 데이터 셋에 적용하..
2021.01.24 -
Shrinkage Method
앞선 포스팅(direction-f.tistory.com/75)에서 다루었던 Subset Selection은 Dicrete Process이기 때문에 중요한 변수가 무시 될수도 있고, 중요하지 않은 변수가 중요하게 판단 될 수 도 있습니다. 따라서 이러한 단점을 보완하기 위한 방법은 Shrinkage Method가 있습니다. 이 는 Continuous Process이고 우리가 Control하기 어려운 변동이 클 때 효과적으로 작동하게 됩니다. Shrinkage Method에는 대표적으로 Ridge regression과 Lasso Regression이 있습니다. [Ridge Regression] Ridge Regression은 least squares와 유사항 형태를 가지고 있습니다. 다만 우리가 추정하고자 ..
2021.01.23 -
Subset Selection
Subset Selection은 우리가 활용할 수 있는 Dependant variable들이 많으나 어떤 것이 유의한 변수인지 결정하기 어려울 때 활용할만한 변수를 선정하기 위해 적용하는 방법입니다. 많이 활용되고 있는 방법으로 1) Best Subset Selection 2) Stepwise Selection이 있습니다. 이러한 기계적인 방법이 변수를 선정하는데 최선의 방법이라고 보긴 어렵겠지만, 쉽게 활용할 수 있는 방법입니다. [Best Subset Selection] Best Subset Selection은 가능한 모든 모델을 고려하여 가장 좋은 모델을 선택하는 방법입니다. 가장 좋은 모델을 선택하는 Step은 아래와 같습니다. Step1) 변수의 사이즈 k=0,1,2,..,p에 대하여 각 변수 ..
2021.01.13 -
선형 모형(Linear Methods for Regression)
선형 회귀 분석은 머신러닝에서 가장 기본적인 모형 중에 하나입니다. 계량경제학에서는 선형회귀모형의 해석과 통계적 해석에 더 초점을 맞추고 있다면, 머신러닝 영역에서는 Best parameter를 추정하고 예측력을 검증하는데 좀 더 집중을 하는 것이 차이점입니다. Computer 성능이 무서울 정도로 빠르게 발전하면서, 선형 모형을 대체하는 복잡한 모형들이 많이 활용되고 있지만 여전히 선형 모형은 Sample이 적을 때, 그리고 Noise가 없는 데이터일 때 강력한 성능을 발휘하고 있으며, 종종 복잡한 모델보다 성능이 뛰어난 모습을 보이기도 합니다. 선형 회귀 모형은 Input $X_1$,$X_2$,..., $X_p$ 일 때 $E(X|Y)$의 함수를 추정하는 것입니다. 일반적인 선형회귀 모형 형식은 아래와..
2021.01.10