Python(71)
-
Smoothing Spline
우리가 앞서 정리했던 Cubic Spline, Natural Cubic Spline은 knot이라는 절단점을 정하여 구간별로 적절한 3차 다항식을 Fitting하였습니다. Smoothing Spline은 knots의 Maximal set을 활용함으로써 절단점을 어디로 할지 결정하는 것에 있어서 자유롭습니다. 즉 주어진 Input X의 Unique한 모든 값을 knot으로써 활용한다는 것입니다. 따라서 Smoothing Spline을 구현하는 것은 모든 Unique한 X값을 knot으로 하는 Natural Cublic Spline을 구현한 것과 같습니다. 다만, 아래의 식에서 보는 것과 같이 추가적인 Penalty가 주어지기 때문에 $\lambda$가 0이 아니라면 Ridge, Lasso와 같이 Natur..
2021.03.12 -
Natural Cubic Spline
Natural Cubic Spline을 다루기에 앞서, 지난 포스팅(direction-f.tistory.com/85)에 다루었던 Regression Spline에 대해서 다시 한 번 정리하고 가보도록 하겠습니다. Regression Spline은 절단점에서 연속이라는 제한조건을 추가로 부여하여 다항식을 적합하는 것입니다. 이는 Basis Exapansion관점에서 해당 제한조건을 만족하는 적절한 Basis Function을 찾아서 Fitting 하는 것과 마찬가지 였습니다. 마찬가지로 Basis Exapansion 관점에서 추가적인 제한조건을 추가하게 되면 기존과 다른 Basis function을 찾게 될 것임을 직관적으로 예상할 수 있습니다. 여기서 가장 작은 절단점보다 값이 작은 구역과 가장 큰 절단..
2021.03.09 -
Piecewise Polynomial and Regression Splines
지금까지 우리는 input feature X에 대한 선형 모형을 주로 다루었습니다. 이번 포스팅에서는 input feature에 추가적인 항을 붙이거나, 입력 변수 X를 transformation을 함으로써 비선형성을 부여하는 방법에 대해서 다루고자 합니다. 가장 간단한 비선형성 부여 방법은 X의 다항식들을 추가 input으로 활용하는 것입니다. 예를 들어 X에 추가적으로 $X^2$, $X^3$과 같은 항을 활용하는 것입니다. 더 나아간다면 구간 별로 다른 다항식을 활용하는 방법도 있을 것입니다. 이번 포스팅에서는 이러한 방법들 중에서 크게 1) Polynomial Regession 2) Piecewise Polynomial Regession 3) Regression Spline(cubic/natural..
2021.03.02 -
로지스틱 회귀모형(Logistic Regression)
로지스틱 회귀모형은 Classfication을 위해 가장 많이 적용되고 있는 방법론일 것입니다. 특히 계량경제학 관점에서 추정되는 Parameter에 대한 통계적 검증 및 해석이 가능하기 때문에 실무에서도 많이 활용 되고 있습니다. 로지스틱 함수는 비선형 함수이나, 아래와 같이 log-odd로 나타냄으로써 Input X에 대해 선형으로 분류할 수 있습니다. $P(G=K|X=x)$의 경우에는 마지막 Class K를 제외하고 다른 Class에 속한 확률을 모두 더한 후 1에서 빼주면 구할 수 있습니다. 따라서 위의 식을 정리하면 아래와 같이 확률 모형을 나타낼 수 있습니다. Logistic regression의 경우에는 주로 maximun likelihood를 이용하여 모형을 fitting하며, log-li..
2021.02.23 -
선형 분류 모형(Linear Methods for Classification)
Classification문제는 Input space를 Labeling된 영역으로 구분하는 것을 말합니다. 이 때 영역을 구분하는 Decision boundary들이 선형일 때 선형 분류 모형이라고 부릅니다. 주요 선형 분류 모형으로는 Linear Regression of an Indicator Matrix, Linear Discriminant Analysis(LDA), Logistic regrssion, Seperating Hyperplane(선형SVM)이 있습니다. 여기서 사실상 Linear Regression같은 경우는 Classification을 수행하기에는 많은 단점을 보유하고 있지만, Decision boundary와 Discriminant function과 같은 Classification문제..
2021.02.20 -
Shrinkage Method2(Elastic Net, LARS)
앞선 포스팅(direction-f.tistory.com/76)에서 Shrinkage Method로 Ridge Regressio과 Lasso Regression을 다루었습니다. Ridge Regression같은 경우에는 변수를 선택해주는 모형이라고 보기 어려우나 추정 계수가 Analytics Solution을 가지는 점, 그리고 변수간 상관관계가 있을 때도 상대적으로 잘 작동하는 점에 있어서 장점이 있습니다. Lasso Regression과 같은 경우에는, Closed form solution을 가지고 있지 않기 때문에 해를 구하는데 상대적으로 큰 Resource가 소요될 수 있고 변수간 상관관계가 높으면 하나의 변수만 채택하고 나머지는 0으로 만들어 버리는 경우가 있어 상관관계가 높은 데이터 셋에 적용하..
2021.01.24