분류 전체보기(106)
-
Panel 회귀모형
Panel 회귀모형을 활용하면, 이전 포스팅에서 언급했던 Omitted variable과 같은 이슈를 일부 해소할 수 있습니다. 만약 Omitted variable이 있고 해당 Omitted variable이 무엇인지 정확히 알기 어려울 때, Panel 회귀모형을 활용하면 시간 또는 그룹차원에서 Parameter 추정에 왜곡을 주는 요소를 회귀분석에 포함하여 분석할 수 있습니다. 먼저 Panel 데이터는 $n$개의 entities로만 구성되어 있는 Cross-section 데이터와 다르게, $n$개의 entities와 시간 T로 구성되어 있습니다. $$(X_{it}, Y_{it}), i=1,\cdots ,n \,\,and\,\, t =1,\cdots,T $$ 예시를 통해, Panel 데이터 및 상이한 시..
2020.10.24 -
회귀분석의 해석
이번 포스팅에서는 앞서 정리하였던 비선형 회귀분석과 상호작용 term을 가지는 회귀분석을 활용하여 여러가지 모형을 수립하고 서로 비교를 통해, 각 변수간의 관계를 분석해보도록 하겠습니다. 먼저 회귀분석 모형수립 및 분석에 들어가기 앞서, 활용하는 변수의 뜻을 다시 한번 정리해보고 가겠습니다. size = 학생수와 선생님수의 비율(학생수/선생님 수) score = 시험 점수 lunch = 급식보조를 받는 학생의 비율 enlgish = 영어를 배운 학생들의 비율 income = 수입 이제 위의 변수들을 활용하여, 7가지 모형을 수립하고 비교 분석을 해보도록 하겠습니다. 이를 통해 1) size가 score에 어떻게 영향을 미치고, 2)영어를 배운 학생들의 비율(english)가 어떻게 size가 가지는 영향..
2020.10.18 -
회귀분석 with interaction term
일반적으로, 회귀분석에 Interaction term을 포함하는 이유는 한 독립변수의 변화가 "또다른 독립변수의 종속변수 Y에 대한 영향력을 어떻게 변경"하는지를 알아보기 위해서입니다. 예를 들어 Interaction term을 활용하여 학력수준이 연봉에 미치는 영향이 남,녀에 따라 다름을 보일 수 있습니다. 이러한 상호작용은 회귀분석에 크게 2가지 주요 유형으로 분류할 수 있습니다. 1. 두 개의 Binary 변수사이에 상호작용 2. 하나의 Binary 변수와 하나의 Continuous 변수사이에 상호작용 먼저, 두 개의 Binary 변수사이에 상호작용부터 알아보겠습니다. [두 개의 Binary 변수사이에 상호작용] 두 개의 Binary 변수를 $D_1$(성별), $D_2$(학력)라고 해보겠습니다. 그..
2020.10.12 -
비선형 회귀모형 > 다항 모형, Log 모형
회귀모형은 주로 종속변수와 독립변수 간에 선형적 관계를 추론하는데 많이 활용합니다. 하지만 실제 종속변수와 독립변수 간의 관계가 선형적이지 않은 경우도 많습니다. 이럴 때, 활용하는 방안이 비선형 회귀모형을 적합해보는 것입니다. 이번 포스팅에서는 대표적인 비선형 회귀모형으로써 다항 모형(Polynomials)과 Log 모형(Logarithms)에 대해서 정리해 보도록 하겠습니다. [다항 모형(Polynomial)] 회귀모형에 활용할 독립변수 $X$가 있다고 가정해보겠습니다. 다항 모형에서는 회귀 모형에 Fitting하기 위한 독립변수로써 $X$뿐만 아니라 $X^2$, $X^3$와 같이 고차항을 독립변수로 함께 활용함으로써 비선형관계도 나타낼 수 있도록 합니다. 즉 다항 모형은 다항식의 Degree를 $k..
2020.10.04 -
회귀분석 가설검정 > F-test
F-test를 활용하여, 다중회귀분석에 대한 Joint Hypothesis Test를 수행할 수 있습니다. 이는 모든 독립변수의 계수가 0인지, 또는 하나의 계수라도 0이 아닌지를 판별하는 것으로, 아래와 같이 F-Test를 위한 귀무가설과 대립가설을 표현할 수 있습니다. 귀무가설은, $k$개의 독립변수가 있다고 가정했을 때, 추정되는 $k$개의 계수가 모두 0임을 뜻하며, 대립가설은 하나의 계수라도 0이 아님을 뜻합니다. 이를 테스트를 수행하기 위한 F-statistic을 구하는 식은 아래와 같습니다. 해당 F-통계량은 (k, n-(k+1))의 자유도를 가지는 F 분포를 활용하여 p-value를 계산하게 됩니다. 여기서 RSS는 잔차제곱합, ESS는 회귀제곱합입니다. Python을 통해 실습을 해보겠습..
2020.10.03 -
회귀분석 가설검정
회귀분석의 계수의 유의성을 판단하기 위해 t-statistic을 활용합니다. t-statistic을 활용하여 회귀분석의 계수가 0이 아니라는 것을 검증하여 계수의 유의성을 판단하는 방법입니다.(t 분포를 활용한 검정: direction-f.tistory.com/32) 만약 추정된 독립변수의 회귀계수를 $\widehat{\beta_1}$이라고 가정해보겠습니다. 그렇다면 $\widehat{\beta_1}$의 분산은 $\frac{\sigma^2}{S_{xx}}$입니다. 이 때 $S_{xx}$은 $\sum(x_i-\overline{x})^2$입니다. 최종적으로 관측수가 $n$이라고 했을 때 회귀 계수의 유의성을 검증하기 위한 t-statistic은 아래와 같습니다.(아래 수식은 단순회귀분석의 경우이고, 다중회귀..
2020.09.17