Python(81)
-
Piecewise Polynomial and Regression Splines
지금까지 우리는 input feature X에 대한 선형 모형을 주로 다루었습니다. 이번 포스팅에서는 input feature에 추가적인 항을 붙이거나, 입력 변수 X를 transformation을 함으로써 비선형성을 부여하는 방법에 대해서 다루고자 합니다. 가장 간단한 비선형성 부여 방법은 X의 다항식들을 추가 input으로 활용하는 것입니다. 예를 들어 X에 추가적으로
2021.03.02 , 과 같은 항을 활용하는 것입니다. 더 나아간다면 구간 별로 다른 다항식을 활용하는 방법도 있을 것입니다. 이번 포스팅에서는 이러한 방법들 중에서 크게 1) Polynomial Regession 2) Piecewise Polynomial Regession 3) Regression Spline(cubic/natural.. -
로지스틱 회귀모형(Logistic Regression)
로지스틱 회귀모형은 Classfication을 위해 가장 많이 적용되고 있는 방법론일 것입니다. 특히 계량경제학 관점에서 추정되는 Parameter에 대한 통계적 검증 및 해석이 가능하기 때문에 실무에서도 많이 활용 되고 있습니다. 로지스틱 함수는 비선형 함수이나, 아래와 같이 log-odd로 나타냄으로써 Input X에 대해 선형으로 분류할 수 있습니다.
2021.02.23 의 경우에는 마지막 Class K를 제외하고 다른 Class에 속한 확률을 모두 더한 후 1에서 빼주면 구할 수 있습니다. 따라서 위의 식을 정리하면 아래와 같이 확률 모형을 나타낼 수 있습니다. Logistic regression의 경우에는 주로 maximun likelihood를 이용하여 모형을 fitting하며, log-li.. -
선형 분류 모형(Linear Methods for Classification)
Classification문제는 Input space를 Labeling된 영역으로 구분하는 것을 말합니다. 이 때 영역을 구분하는 Decision boundary들이 선형일 때 선형 분류 모형이라고 부릅니다. 주요 선형 분류 모형으로는 Linear Regression of an Indicator Matrix, Linear Discriminant Analysis(LDA), Logistic regrssion, Seperating Hyperplane(선형SVM)이 있습니다. 여기서 사실상 Linear Regression같은 경우는 Classification을 수행하기에는 많은 단점을 보유하고 있지만, Decision boundary와 Discriminant function과 같은 Classification문제..
2021.02.20 -
Shrinkage Method2(Elastic Net, LARS)
앞선 포스팅(direction-f.tistory.com/76)에서 Shrinkage Method로 Ridge Regressio과 Lasso Regression을 다루었습니다. Ridge Regression같은 경우에는 변수를 선택해주는 모형이라고 보기 어려우나 추정 계수가 Analytics Solution을 가지는 점, 그리고 변수간 상관관계가 있을 때도 상대적으로 잘 작동하는 점에 있어서 장점이 있습니다. Lasso Regression과 같은 경우에는, Closed form solution을 가지고 있지 않기 때문에 해를 구하는데 상대적으로 큰 Resource가 소요될 수 있고 변수간 상관관계가 높으면 하나의 변수만 채택하고 나머지는 0으로 만들어 버리는 경우가 있어 상관관계가 높은 데이터 셋에 적용하..
2021.01.24 -
Shrinkage Method
앞선 포스팅(direction-f.tistory.com/75)에서 다루었던 Subset Selection은 Dicrete Process이기 때문에 중요한 변수가 무시 될수도 있고, 중요하지 않은 변수가 중요하게 판단 될 수 도 있습니다. 따라서 이러한 단점을 보완하기 위한 방법은 Shrinkage Method가 있습니다. 이 는 Continuous Process이고 우리가 Control하기 어려운 변동이 클 때 효과적으로 작동하게 됩니다. Shrinkage Method에는 대표적으로 Ridge regression과 Lasso Regression이 있습니다. [Ridge Regression] Ridge Regression은 least squares와 유사항 형태를 가지고 있습니다. 다만 우리가 추정하고자 ..
2021.01.23 -
Subset Selection
Subset Selection은 우리가 활용할 수 있는 Dependant variable들이 많으나 어떤 것이 유의한 변수인지 결정하기 어려울 때 활용할만한 변수를 선정하기 위해 적용하는 방법입니다. 많이 활용되고 있는 방법으로 1) Best Subset Selection 2) Stepwise Selection이 있습니다. 이러한 기계적인 방법이 변수를 선정하는데 최선의 방법이라고 보긴 어렵겠지만, 쉽게 활용할 수 있는 방법입니다. [Best Subset Selection] Best Subset Selection은 가능한 모든 모델을 고려하여 가장 좋은 모델을 선택하는 방법입니다. 가장 좋은 모델을 선택하는 Step은 아래와 같습니다. Step1) 변수의 사이즈 k=0,1,2,..,p에 대하여 각 변수 ..
2021.01.13