계량경제학(20)
-
Instrumental Variable Regression(도구변수를 활용한 회귀분석)
회귀모형은 Omitted variable, measurement error 등과 같은 요인에 의해 모형 추정이 잘 못 될 수 있습니다. 만약 Omitted variable을 측정하기 어렵거나, 활용할 수 없다면 추정된 회귀모형은 오류를 가지고 있을 수 밖에 없습니다.(추정된 계수의 일치성을 보장할 수 없습니다.) 이런 이슈를 해결하기 위해서 Instrumental variable이라고 불리는 도구변수를 활용하여 회귀모형을 추정하는 것입니다. 아래와 같은 회귀모형이 있다고 가정해보겠습니다 $$ Y_i = \beta_0 +\beta_1X_i+\mu_i $$ 만약 $\mu_i$이 $X_i$관련이 있다면($X_i$가 내생성을 가짐(endogenous), OLS로 추정된 $\beta_1$은 일치성을 가지고 있지 ..
2020.11.08 -
Binary 변수를 가지는 회귀분석(로짓 모형)
이번 포스팅에서는 Probit 모형과 마찬가지로 Binary(0 or 1 값을 가지는) 종속변수를 예측 및 추정할 때 사용하는 Logit 모형에 대해서 정리해보겠습니다. Logit 모형은 아래와 같이 표현할 수 있습니다. Python statsmodels를 활용하여 Logit 모형을 추정해보겠습니다. 활용한 데이터는 이전 포스팅(Probit 모형)에서 활용한 데이터와 동일합니다. from statsmodels.discrete.discrete_model import Logit X = HMDA["pirat"] X = sm.add_constant(X) Y = HMDA["deny_binary"] denylogit = Logit(Y, X).fit() denylogit.summary() ''' ===========..
2020.11.02 -
Panel 회귀모형
Panel 회귀모형을 활용하면, 이전 포스팅에서 언급했던 Omitted variable과 같은 이슈를 일부 해소할 수 있습니다. 만약 Omitted variable이 있고 해당 Omitted variable이 무엇인지 정확히 알기 어려울 때, Panel 회귀모형을 활용하면 시간 또는 그룹차원에서 Parameter 추정에 왜곡을 주는 요소를 회귀분석에 포함하여 분석할 수 있습니다. 먼저 Panel 데이터는 $n$개의 entities로만 구성되어 있는 Cross-section 데이터와 다르게, $n$개의 entities와 시간 T로 구성되어 있습니다. $$(X_{it}, Y_{it}), i=1,\cdots ,n \,\,and\,\, t =1,\cdots,T $$ 예시를 통해, Panel 데이터 및 상이한 시..
2020.10.24 -
회귀분석의 해석
이번 포스팅에서는 앞서 정리하였던 비선형 회귀분석과 상호작용 term을 가지는 회귀분석을 활용하여 여러가지 모형을 수립하고 서로 비교를 통해, 각 변수간의 관계를 분석해보도록 하겠습니다. 먼저 회귀분석 모형수립 및 분석에 들어가기 앞서, 활용하는 변수의 뜻을 다시 한번 정리해보고 가겠습니다. size = 학생수와 선생님수의 비율(학생수/선생님 수) score = 시험 점수 lunch = 급식보조를 받는 학생의 비율 enlgish = 영어를 배운 학생들의 비율 income = 수입 이제 위의 변수들을 활용하여, 7가지 모형을 수립하고 비교 분석을 해보도록 하겠습니다. 이를 통해 1) size가 score에 어떻게 영향을 미치고, 2)영어를 배운 학생들의 비율(english)가 어떻게 size가 가지는 영향..
2020.10.18 -
회귀분석 with interaction term
일반적으로, 회귀분석에 Interaction term을 포함하는 이유는 한 독립변수의 변화가 "또다른 독립변수의 종속변수 Y에 대한 영향력을 어떻게 변경"하는지를 알아보기 위해서입니다. 예를 들어 Interaction term을 활용하여 학력수준이 연봉에 미치는 영향이 남,녀에 따라 다름을 보일 수 있습니다. 이러한 상호작용은 회귀분석에 크게 2가지 주요 유형으로 분류할 수 있습니다. 1. 두 개의 Binary 변수사이에 상호작용 2. 하나의 Binary 변수와 하나의 Continuous 변수사이에 상호작용 먼저, 두 개의 Binary 변수사이에 상호작용부터 알아보겠습니다. [두 개의 Binary 변수사이에 상호작용] 두 개의 Binary 변수를 $D_1$(성별), $D_2$(학력)라고 해보겠습니다. 그..
2020.10.12 -
VIF(분산팽창요인), 결정계수
이전 포스팅에서 다중공선성에 대해서 다루었습니다. 그렇다면 다중공선성을 어떻게 진단을 할 수 있을까요? 완전한 다중공선성(Perfect Multicollinearity)라면, 계수가 추정이 안되거나 경고문구를 보고 확인할 수 있었지만, Imperfect Multicollinearity라면 우리는 사전에 진단할 수 있는 방법이 필요합니다. [VIF(분산팽창요인)] 이러한 다중공선성을 진단하기 위해 우리는 VIF라는 개념을 많이 활용합니다. VIF는 독립변수가 여러개 있을 때, 특정 독립변수를 종속변수로하고 나머지 독립변수를 독립변수로 하여 회귀분석을 수행하여 변수간에 관계성을 측정합니다. 예를들어 독립변수 $X_1$,$X_2$,$X_3$이 있다고 가정해보겠습니다. 그렇다면 우리는 아래와 같이 3번의 회귀분..
2020.09.13