분류 전체보기(106)
-
VIF(분산팽창요인), 결정계수
이전 포스팅에서 다중공선성에 대해서 다루었습니다. 그렇다면 다중공선성을 어떻게 진단을 할 수 있을까요? 완전한 다중공선성(Perfect Multicollinearity)라면, 계수가 추정이 안되거나 경고문구를 보고 확인할 수 있었지만, Imperfect Multicollinearity라면 우리는 사전에 진단할 수 있는 방법이 필요합니다. [VIF(분산팽창요인)] 이러한 다중공선성을 진단하기 위해 우리는 VIF라는 개념을 많이 활용합니다. VIF는 독립변수가 여러개 있을 때, 특정 독립변수를 종속변수로하고 나머지 독립변수를 독립변수로 하여 회귀분석을 수행하여 변수간에 관계성을 측정합니다. 예를들어 독립변수 $X_1$,$X_2$,$X_3$이 있다고 가정해보겠습니다. 그렇다면 우리는 아래와 같이 3번의 회귀분..
2020.09.13 -
다중공선성(Multicollinearity)
다중공선성(Multicollinearity)은 다중회귀분석에서 활용된 두 개 이상의 독립변수가 강하게 연관되어 있을 때, 발생하는 문제입니다. [Perfect Multicollinearity] 만약 두 개 이상의 독립변수 사이가 완벽하게 연관되어 있다면, 즉 한 변수를 다른 변수가 선형결합을 통해서 표현할 수 있다면 Perfect Multicollinearity가 있다고 판단할 수 있습니다. 만약 Perfect Multicollinearity가 발생하게 되면 OLS를 활용하여 계수를 추정할 수가 없게 됩니다. 예를 통해 Perfect Multicollinearity가 발생했을 때 어떤 현상이 일어나는지 알아보겠습니다. import statsmodels.api as sm import statsmodels...
2020.09.10 -
Omitted Variable Bias
Omitted Variable Bias은 다중 회귀 분석에서 종속변수를 설명하기 위한 중요한 독립변수이나, 모형에서 누락되어 오차항에 포함되었을 때 발생하는 편향입니다. Omitted Variable Bias가 발생하기 위해서는, 독립변수 $X$는 Omitted Variable과 관계(Correlated)가 되있어야 하며, Omitted Variable은 종속변수에 대한 설명력을 가져야합니다. $y_i = \alpha+\beta_1 x_i+\mu_i$의 회귀 식이 있다고 가정해보겠습니다. OLS(Ordinary Least Squares)로 추정된 $\widehat{\beta_1}$ 아래와 같이 나타납니다. $y_i$를 $y_i = \alpha+\beta_1 x_i+\mu_i$을 활용하여 표현하면 아래와 ..
2020.09.10 -
카이제곱 적합도 검정(범주형 자료 비교)
카이제곱($\chi^2$)적합도 검정은 범주형 자료에 대한 가설을 검정하는 방안입니다. 쉽게 말하면, 교차테이블에 대한 가설검정입니다. 예를 들어 나이대별 E-commerce 사용자의 관측빈도를 아래와 같이 교차테이블로 표현할 수 있습니다. 나이대 20대 30대 40대 합계 관측도수 50 30 20 100 만약 모집단의 비율을 1/2, 1/4, 1/4으로 가정했을 때, 카이제곱($\chi^2$)적합도 검정을 통해 교차테이블로 얻은 정보로 모집단의 모집단의 비율을 기각 또는 채택할 수 있을지에 대한 검정을 하는 것입니다. 즉 이때 귀무가설은 아래와 같이 표현할 수 있습니다. 이와 같은 검정을 적합도 검정(goodeness-of-fit test)라고 부릅니다. [적합도 검정(goodeness-of-fit t..
2020.09.06 -
분산분석(ANOVA) 2
집단간의 차이가 존재하는지 통계적으로 검정하기 위해서는, 실험 모집단에 대한 모형이 있어야 합니다. 이를 위하여, $i$번째 집단에서의 반응치가 평균$\mu_i$, 분산이 $\sigma^2$인 정규모집단을 따른다고 가정하겠습니다. 그렇다면, $i$번째 집단에서 $j$번째 반응값을 $Y_{ij}$라고 하면 $Y_{ij}$는 아래와 같이 표현할 수 있습니다. 이 때, 오차항 $\varepsilon _{ij}$은 모두 독립이고 평균이 0, 분산이 $\sigma^2$인 정규분포를 따릅니다. $k$개의 집단에서 모평균 차이가 없다는 귀무가설은 아래와 같습니다. 만약, 귀무가설이 맞다면 처리제곱합(SStr)의 값이 작아질 것이고 평균처리제곱(MStr)도 작아질 것입니다. 반면에 귀무가설이 틀리다면, 평균처리제곱(M..
2020.09.03 -
분산분석(ANOVA) 1
두 모집단 뿐만 아니라, 셋 이상의 모집단간의 평균을 비교하는 방법으로 널리 알려진 것이 분산분석(ANOVA)입니다. 예를 들어 10대, 20대, 30대, 40대의 평균 소비를 비교할 때 분산분석(ANOVA)는 활용될 수 있습니다. 분산분석은 관측값들이 달라지는 것을 여러 요인으로 나누어, 요인들이 얼마나 차이에 기여했는지를 분석하는 것입니다. 다. 여기서는 관측값의 변동을 "모집단 간의 변동"과 "모집단 내의 변동" 두 가지로 나누어서 분석을 수행하는 One-way ANOVA에 대해서 정리하도록 하겠습니다. 전체 $n=n_1+n_2+n_3+\cdots+n_k$가 있을 때 집단1은 $n_1$이고 집단k는 $n_k$라고 해보겠습니다. 만약 k=2라면 일전에 했던 두 모집단의 평균 모집단 비교와 같습니다. ..
2020.08.31