전체 글(115)
-
비선형 회귀모형 > 다항 모형, Log 모형
회귀모형은 주로 종속변수와 독립변수 간에 선형적 관계를 추론하는데 많이 활용합니다. 하지만 실제 종속변수와 독립변수 간의 관계가 선형적이지 않은 경우도 많습니다. 이럴 때, 활용하는 방안이 비선형 회귀모형을 적합해보는 것입니다. 이번 포스팅에서는 대표적인 비선형 회귀모형으로써 다항 모형(Polynomials)과 Log 모형(Logarithms)에 대해서 정리해 보도록 하겠습니다. [다항 모형(Polynomial)] 회귀모형에 활용할 독립변수 $X$가 있다고 가정해보겠습니다. 다항 모형에서는 회귀 모형에 Fitting하기 위한 독립변수로써 $X$뿐만 아니라 $X^2$, $X^3$와 같이 고차항을 독립변수로 함께 활용함으로써 비선형관계도 나타낼 수 있도록 합니다. 즉 다항 모형은 다항식의 Degree를 $k..
2020.10.04 -
회귀분석 가설검정 > F-test
F-test를 활용하여, 다중회귀분석에 대한 Joint Hypothesis Test를 수행할 수 있습니다. 이는 모든 독립변수의 계수가 0인지, 또는 하나의 계수라도 0이 아닌지를 판별하는 것으로, 아래와 같이 F-Test를 위한 귀무가설과 대립가설을 표현할 수 있습니다. 귀무가설은, $k$개의 독립변수가 있다고 가정했을 때, 추정되는 $k$개의 계수가 모두 0임을 뜻하며, 대립가설은 하나의 계수라도 0이 아님을 뜻합니다. 이를 테스트를 수행하기 위한 F-statistic을 구하는 식은 아래와 같습니다. 해당 F-통계량은 (k, n-(k+1))의 자유도를 가지는 F 분포를 활용하여 p-value를 계산하게 됩니다. 여기서 RSS는 잔차제곱합, ESS는 회귀제곱합입니다. Python을 통해 실습을 해보겠습..
2020.10.03 -
회귀분석 가설검정
회귀분석의 계수의 유의성을 판단하기 위해 t-statistic을 활용합니다. t-statistic을 활용하여 회귀분석의 계수가 0이 아니라는 것을 검증하여 계수의 유의성을 판단하는 방법입니다.(t 분포를 활용한 검정: direction-f.tistory.com/32) 만약 추정된 독립변수의 회귀계수를 $\widehat{\beta_1}$이라고 가정해보겠습니다. 그렇다면 $\widehat{\beta_1}$의 분산은 $\frac{\sigma^2}{S_{xx}}$입니다. 이 때 $S_{xx}$은 $\sum(x_i-\overline{x})^2$입니다. 최종적으로 관측수가 $n$이라고 했을 때 회귀 계수의 유의성을 검증하기 위한 t-statistic은 아래와 같습니다.(아래 수식은 단순회귀분석의 경우이고, 다중회귀..
2020.09.17 -
VIF(분산팽창요인), 결정계수
이전 포스팅에서 다중공선성에 대해서 다루었습니다. 그렇다면 다중공선성을 어떻게 진단을 할 수 있을까요? 완전한 다중공선성(Perfect Multicollinearity)라면, 계수가 추정이 안되거나 경고문구를 보고 확인할 수 있었지만, Imperfect Multicollinearity라면 우리는 사전에 진단할 수 있는 방법이 필요합니다. [VIF(분산팽창요인)] 이러한 다중공선성을 진단하기 위해 우리는 VIF라는 개념을 많이 활용합니다. VIF는 독립변수가 여러개 있을 때, 특정 독립변수를 종속변수로하고 나머지 독립변수를 독립변수로 하여 회귀분석을 수행하여 변수간에 관계성을 측정합니다. 예를들어 독립변수 $X_1$,$X_2$,$X_3$이 있다고 가정해보겠습니다. 그렇다면 우리는 아래와 같이 3번의 회귀분..
2020.09.13 -
다중공선성(Multicollinearity)
다중공선성(Multicollinearity)은 다중회귀분석에서 활용된 두 개 이상의 독립변수가 강하게 연관되어 있을 때, 발생하는 문제입니다. [Perfect Multicollinearity] 만약 두 개 이상의 독립변수 사이가 완벽하게 연관되어 있다면, 즉 한 변수를 다른 변수가 선형결합을 통해서 표현할 수 있다면 Perfect Multicollinearity가 있다고 판단할 수 있습니다. 만약 Perfect Multicollinearity가 발생하게 되면 OLS를 활용하여 계수를 추정할 수가 없게 됩니다. 예를 통해 Perfect Multicollinearity가 발생했을 때 어떤 현상이 일어나는지 알아보겠습니다. import statsmodels.api as sm import statsmodels...
2020.09.10 -
Omitted Variable Bias
Omitted Variable Bias은 다중 회귀 분석에서 종속변수를 설명하기 위한 중요한 독립변수이나, 모형에서 누락되어 오차항에 포함되었을 때 발생하는 편향입니다. Omitted Variable Bias가 발생하기 위해서는, 독립변수 $X$는 Omitted Variable과 관계(Correlated)가 되있어야 하며, Omitted Variable은 종속변수에 대한 설명력을 가져야합니다. $y_i = \alpha+\beta_1 x_i+\mu_i$의 회귀 식이 있다고 가정해보겠습니다. OLS(Ordinary Least Squares)로 추정된 $\widehat{\beta_1}$ 아래와 같이 나타납니다. $y_i$를 $y_i = \alpha+\beta_1 x_i+\mu_i$을 활용하여 표현하면 아래와 ..
2020.09.10