Python(81)
-
Panel 회귀모형
Panel 회귀모형을 활용하면, 이전 포스팅에서 언급했던 Omitted variable과 같은 이슈를 일부 해소할 수 있습니다. 만약 Omitted variable이 있고 해당 Omitted variable이 무엇인지 정확히 알기 어려울 때, Panel 회귀모형을 활용하면 시간 또는 그룹차원에서 Parameter 추정에 왜곡을 주는 요소를 회귀분석에 포함하여 분석할 수 있습니다. 먼저 Panel 데이터는
2020.10.24 개의 entities로만 구성되어 있는 Cross-section 데이터와 다르게, 개의 entities와 시간 T로 구성되어 있습니다. 예시를 통해, Panel 데이터 및 상이한 시.. -
회귀분석의 해석
이번 포스팅에서는 앞서 정리하였던 비선형 회귀분석과 상호작용 term을 가지는 회귀분석을 활용하여 여러가지 모형을 수립하고 서로 비교를 통해, 각 변수간의 관계를 분석해보도록 하겠습니다. 먼저 회귀분석 모형수립 및 분석에 들어가기 앞서, 활용하는 변수의 뜻을 다시 한번 정리해보고 가겠습니다. size = 학생수와 선생님수의 비율(학생수/선생님 수) score = 시험 점수 lunch = 급식보조를 받는 학생의 비율 enlgish = 영어를 배운 학생들의 비율 income = 수입 이제 위의 변수들을 활용하여, 7가지 모형을 수립하고 비교 분석을 해보도록 하겠습니다. 이를 통해 1) size가 score에 어떻게 영향을 미치고, 2)영어를 배운 학생들의 비율(english)가 어떻게 size가 가지는 영향..
2020.10.18 -
회귀분석 with interaction term
일반적으로, 회귀분석에 Interaction term을 포함하는 이유는 한 독립변수의 변화가 "또다른 독립변수의 종속변수 Y에 대한 영향력을 어떻게 변경"하는지를 알아보기 위해서입니다. 예를 들어 Interaction term을 활용하여 학력수준이 연봉에 미치는 영향이 남,녀에 따라 다름을 보일 수 있습니다. 이러한 상호작용은 회귀분석에 크게 2가지 주요 유형으로 분류할 수 있습니다. 1. 두 개의 Binary 변수사이에 상호작용 2. 하나의 Binary 변수와 하나의 Continuous 변수사이에 상호작용 먼저, 두 개의 Binary 변수사이에 상호작용부터 알아보겠습니다. [두 개의 Binary 변수사이에 상호작용] 두 개의 Binary 변수를
2020.10.12 (성별), (학력)라고 해보겠습니다. 그.. -
회귀분석 가설검정 > F-test
F-test를 활용하여, 다중회귀분석에 대한 Joint Hypothesis Test를 수행할 수 있습니다. 이는 모든 독립변수의 계수가 0인지, 또는 하나의 계수라도 0이 아닌지를 판별하는 것으로, 아래와 같이 F-Test를 위한 귀무가설과 대립가설을 표현할 수 있습니다. 귀무가설은,
2020.10.03 개의 독립변수가 있다고 가정했을 때, 추정되는 개의 계수가 모두 0임을 뜻하며, 대립가설은 하나의 계수라도 0이 아님을 뜻합니다. 이를 테스트를 수행하기 위한 F-statistic을 구하는 식은 아래와 같습니다. 해당 F-통계량은 (k, n-(k+1))의 자유도를 가지는 F 분포를 활용하여 p-value를 계산하게 됩니다. 여기서 RSS는 잔차제곱합, ESS는 회귀제곱합입니다. Python을 통해 실습을 해보겠습.. -
회귀분석 가설검정
회귀분석의 계수의 유의성을 판단하기 위해 t-statistic을 활용합니다. t-statistic을 활용하여 회귀분석의 계수가 0이 아니라는 것을 검증하여 계수의 유의성을 판단하는 방법입니다.(t 분포를 활용한 검정: direction-f.tistory.com/32) 만약 추정된 독립변수의 회귀계수를
2020.09.17 이라고 가정해보겠습니다. 그렇다면 의 분산은 입니다. 이 때 은 입니다. 최종적으로 관측수가 이라고 했을 때 회귀 계수의 유의성을 검증하기 위한 t-statistic은 아래와 같습니다.(아래 수식은 단순회귀분석의 경우이고, 다중회귀.. -
VIF(분산팽창요인), 결정계수
이전 포스팅에서 다중공선성에 대해서 다루었습니다. 그렇다면 다중공선성을 어떻게 진단을 할 수 있을까요? 완전한 다중공선성(Perfect Multicollinearity)라면, 계수가 추정이 안되거나 경고문구를 보고 확인할 수 있었지만, Imperfect Multicollinearity라면 우리는 사전에 진단할 수 있는 방법이 필요합니다. [VIF(분산팽창요인)] 이러한 다중공선성을 진단하기 위해 우리는 VIF라는 개념을 많이 활용합니다. VIF는 독립변수가 여러개 있을 때, 특정 독립변수를 종속변수로하고 나머지 독립변수를 독립변수로 하여 회귀분석을 수행하여 변수간에 관계성을 측정합니다. 예를들어 독립변수
2020.09.13 , , 이 있다고 가정해보겠습니다. 그렇다면 우리는 아래와 같이 3번의 회귀분..