Python(81)
-
다중공선성(Multicollinearity)
다중공선성(Multicollinearity)은 다중회귀분석에서 활용된 두 개 이상의 독립변수가 강하게 연관되어 있을 때, 발생하는 문제입니다. [Perfect Multicollinearity] 만약 두 개 이상의 독립변수 사이가 완벽하게 연관되어 있다면, 즉 한 변수를 다른 변수가 선형결합을 통해서 표현할 수 있다면 Perfect Multicollinearity가 있다고 판단할 수 있습니다. 만약 Perfect Multicollinearity가 발생하게 되면 OLS를 활용하여 계수를 추정할 수가 없게 됩니다. 예를 통해 Perfect Multicollinearity가 발생했을 때 어떤 현상이 일어나는지 알아보겠습니다. import statsmodels.api as sm import statsmodels...
2020.09.10 -
Omitted Variable Bias
Omitted Variable Bias은 다중 회귀 분석에서 종속변수를 설명하기 위한 중요한 독립변수이나, 모형에서 누락되어 오차항에 포함되었을 때 발생하는 편향입니다. Omitted Variable Bias가 발생하기 위해서는, 독립변수 $X$는 Omitted Variable과 관계(Correlated)가 되있어야 하며, Omitted Variable은 종속변수에 대한 설명력을 가져야합니다. $y_i = \alpha+\beta_1 x_i+\mu_i$의 회귀 식이 있다고 가정해보겠습니다. OLS(Ordinary Least Squares)로 추정된 $\widehat{\beta_1}$ 아래와 같이 나타납니다. $y_i$를 $y_i = \alpha+\beta_1 x_i+\mu_i$을 활용하여 표현하면 아래와 ..
2020.09.10 -
카이제곱 적합도 검정(범주형 자료 비교)
카이제곱($\chi^2$)적합도 검정은 범주형 자료에 대한 가설을 검정하는 방안입니다. 쉽게 말하면, 교차테이블에 대한 가설검정입니다. 예를 들어 나이대별 E-commerce 사용자의 관측빈도를 아래와 같이 교차테이블로 표현할 수 있습니다. 나이대 20대 30대 40대 합계 관측도수 50 30 20 100 만약 모집단의 비율을 1/2, 1/4, 1/4으로 가정했을 때, 카이제곱($\chi^2$)적합도 검정을 통해 교차테이블로 얻은 정보로 모집단의 모집단의 비율을 기각 또는 채택할 수 있을지에 대한 검정을 하는 것입니다. 즉 이때 귀무가설은 아래와 같이 표현할 수 있습니다. 이와 같은 검정을 적합도 검정(goodeness-of-fit test)라고 부릅니다. [적합도 검정(goodeness-of-fit t..
2020.09.06 -
분산분석(ANOVA) 2
집단간의 차이가 존재하는지 통계적으로 검정하기 위해서는, 실험 모집단에 대한 모형이 있어야 합니다. 이를 위하여, $i$번째 집단에서의 반응치가 평균$\mu_i$, 분산이 $\sigma^2$인 정규모집단을 따른다고 가정하겠습니다. 그렇다면, $i$번째 집단에서 $j$번째 반응값을 $Y_{ij}$라고 하면 $Y_{ij}$는 아래와 같이 표현할 수 있습니다. 이 때, 오차항 $\varepsilon _{ij}$은 모두 독립이고 평균이 0, 분산이 $\sigma^2$인 정규분포를 따릅니다. $k$개의 집단에서 모평균 차이가 없다는 귀무가설은 아래와 같습니다. 만약, 귀무가설이 맞다면 처리제곱합(SStr)의 값이 작아질 것이고 평균처리제곱(MStr)도 작아질 것입니다. 반면에 귀무가설이 틀리다면, 평균처리제곱(M..
2020.09.03 -
단순회귀분석> 잔차의 검토
단순회귀분석을 통하여 추정한 회귀모형을 활용할 때, 추정된 모형이 타당할 때, 이론적 근거가 성립할 것입니다. 그러므로, 추정된 모형이 타당한지에 대해 검토가 필요합니다. 주로, 잔차를 활용하여 추정된 모형이 타당한지를 판단합니다. 잔차 $e_i$에 대한 가정은 다음과 같습니다. (1) $e_i$의 평균은 0이다. (2)$e_i$들은 서로 독립이다.(독립성) (3)$e_i$의 분산은 $\sigma^2$이다.(등분산성) (4)$e_i$는 정규분포 N(0, $\sigma^2$)을 따른다.(정규성) 이들 조건중에서 (1)은 절편($\beta_0$)을 이용하여 우리가 항상 만족하게끔 모형을 추정할 수 있지만, (2),(3),(4)는 모형을 추정하면서 만들기가 어렵습니다. 따라서 (2),(3),(4)항목에 대해서..
2020.08.30 -
두 모집단의 비교(표본이 작을 때, T-Test)
이전 포스팅(https://direction-f.tistory.com/35)에서 표본이 충분히 클 때 두 집단의 차이를 보는 통계적 추론 방안을 다루었습니다. 이번 포스팅에서는 표본의 크기가 충분히 크지 못할 때(30개 미만일 때) 어떻게 통계적 추론을 할지에 대해서 정리해보도록 하겠습니다. 독립 표본의 경우에 우리는 표본의 크기가 충분히 크지 않을 때 표준정규분포 대신 t-distribution을 활용하였습니다. 두 집단간의 차이비교도 마찬가지로 우리는 t-분포를 활용합니다. 다만 표본의 수가 충분히 클 때와 다른 점은, 공통분산을 추정한다는 것입니다. [두 모평균의 차이 추론(표본이 작을 때)] 표본이 크기가 작을 때, 두 집단의 차이에 대해서 통계적 추론을 하기 위해서는 아래와 같은 두 가지의 가정..
2020.08.20