회귀분석(9)
-
Binary 변수를 가지는 회귀분석(프로빗 모형)
이번 포스팅에서는 Binary(0 or 1 값을 가지는) 종속변수를 예측 및 추정할 때 사용하는 회귀분석을 정리해보도록 하겠습니다. 종속변수가 Binary일 때 주로 로짓(Logit) 회귀모형과 프로빗(Probit)회귀모형을 많이 활용합니다. 아래와 같은 선형 회귀모형이 있다고 해보겠습니다. 종속변수 $Y_i$가 binary변수 일 때 위 선형 모형은 선형 확률 모형(Linear probability model)로 아래와 같이 표현될 수 있습니다. 여기서 계수 $\beta_j$는 다른 $X$값들이 변화하지 않을 때, $Y_i=1$일 확률의 변화로 해석될 수 있습니다. $\beta_j$는 다른 회귀분석과 마찬가지로 OLS를 활용하여 추정될 수 있습니다. HMDA 데이터를 활용하여, 선형 확률 모형을 Fit..
2020.11.01 -
회귀분석의 해석
이번 포스팅에서는 앞서 정리하였던 비선형 회귀분석과 상호작용 term을 가지는 회귀분석을 활용하여 여러가지 모형을 수립하고 서로 비교를 통해, 각 변수간의 관계를 분석해보도록 하겠습니다. 먼저 회귀분석 모형수립 및 분석에 들어가기 앞서, 활용하는 변수의 뜻을 다시 한번 정리해보고 가겠습니다. size = 학생수와 선생님수의 비율(학생수/선생님 수) score = 시험 점수 lunch = 급식보조를 받는 학생의 비율 enlgish = 영어를 배운 학생들의 비율 income = 수입 이제 위의 변수들을 활용하여, 7가지 모형을 수립하고 비교 분석을 해보도록 하겠습니다. 이를 통해 1) size가 score에 어떻게 영향을 미치고, 2)영어를 배운 학생들의 비율(english)가 어떻게 size가 가지는 영향..
2020.10.18 -
회귀분석 with interaction term
일반적으로, 회귀분석에 Interaction term을 포함하는 이유는 한 독립변수의 변화가 "또다른 독립변수의 종속변수 Y에 대한 영향력을 어떻게 변경"하는지를 알아보기 위해서입니다. 예를 들어 Interaction term을 활용하여 학력수준이 연봉에 미치는 영향이 남,녀에 따라 다름을 보일 수 있습니다. 이러한 상호작용은 회귀분석에 크게 2가지 주요 유형으로 분류할 수 있습니다. 1. 두 개의 Binary 변수사이에 상호작용 2. 하나의 Binary 변수와 하나의 Continuous 변수사이에 상호작용 먼저, 두 개의 Binary 변수사이에 상호작용부터 알아보겠습니다. [두 개의 Binary 변수사이에 상호작용] 두 개의 Binary 변수를 $D_1$(성별), $D_2$(학력)라고 해보겠습니다. 그..
2020.10.12 -
회귀분석 가설검정 > F-test
F-test를 활용하여, 다중회귀분석에 대한 Joint Hypothesis Test를 수행할 수 있습니다. 이는 모든 독립변수의 계수가 0인지, 또는 하나의 계수라도 0이 아닌지를 판별하는 것으로, 아래와 같이 F-Test를 위한 귀무가설과 대립가설을 표현할 수 있습니다. 귀무가설은, $k$개의 독립변수가 있다고 가정했을 때, 추정되는 $k$개의 계수가 모두 0임을 뜻하며, 대립가설은 하나의 계수라도 0이 아님을 뜻합니다. 이를 테스트를 수행하기 위한 F-statistic을 구하는 식은 아래와 같습니다. 해당 F-통계량은 (k, n-(k+1))의 자유도를 가지는 F 분포를 활용하여 p-value를 계산하게 됩니다. 여기서 RSS는 잔차제곱합, ESS는 회귀제곱합입니다. Python을 통해 실습을 해보겠습..
2020.10.03 -
회귀분석 가설검정
회귀분석의 계수의 유의성을 판단하기 위해 t-statistic을 활용합니다. t-statistic을 활용하여 회귀분석의 계수가 0이 아니라는 것을 검증하여 계수의 유의성을 판단하는 방법입니다.(t 분포를 활용한 검정: direction-f.tistory.com/32) 만약 추정된 독립변수의 회귀계수를 $\widehat{\beta_1}$이라고 가정해보겠습니다. 그렇다면 $\widehat{\beta_1}$의 분산은 $\frac{\sigma^2}{S_{xx}}$입니다. 이 때 $S_{xx}$은 $\sum(x_i-\overline{x})^2$입니다. 최종적으로 관측수가 $n$이라고 했을 때 회귀 계수의 유의성을 검증하기 위한 t-statistic은 아래와 같습니다.(아래 수식은 단순회귀분석의 경우이고, 다중회귀..
2020.09.17 -
단순회귀분석> 잔차의 검토
단순회귀분석을 통하여 추정한 회귀모형을 활용할 때, 추정된 모형이 타당할 때, 이론적 근거가 성립할 것입니다. 그러므로, 추정된 모형이 타당한지에 대해 검토가 필요합니다. 주로, 잔차를 활용하여 추정된 모형이 타당한지를 판단합니다. 잔차 $e_i$에 대한 가정은 다음과 같습니다. (1) $e_i$의 평균은 0이다. (2)$e_i$들은 서로 독립이다.(독립성) (3)$e_i$의 분산은 $\sigma^2$이다.(등분산성) (4)$e_i$는 정규분포 N(0, $\sigma^2$)을 따른다.(정규성) 이들 조건중에서 (1)은 절편($\beta_0$)을 이용하여 우리가 항상 만족하게끔 모형을 추정할 수 있지만, (2),(3),(4)는 모형을 추정하면서 만들기가 어렵습니다. 따라서 (2),(3),(4)항목에 대해서..
2020.08.30