데이터 분석 기본(27)
-
카이제곱 적합도 검정(범주형 자료 비교)
카이제곱($\chi^2$)적합도 검정은 범주형 자료에 대한 가설을 검정하는 방안입니다. 쉽게 말하면, 교차테이블에 대한 가설검정입니다. 예를 들어 나이대별 E-commerce 사용자의 관측빈도를 아래와 같이 교차테이블로 표현할 수 있습니다. 나이대 20대 30대 40대 합계 관측도수 50 30 20 100 만약 모집단의 비율을 1/2, 1/4, 1/4으로 가정했을 때, 카이제곱($\chi^2$)적합도 검정을 통해 교차테이블로 얻은 정보로 모집단의 모집단의 비율을 기각 또는 채택할 수 있을지에 대한 검정을 하는 것입니다. 즉 이때 귀무가설은 아래와 같이 표현할 수 있습니다. 이와 같은 검정을 적합도 검정(goodeness-of-fit test)라고 부릅니다. [적합도 검정(goodeness-of-fit t..
2020.09.06 -
분산분석(ANOVA) 2
집단간의 차이가 존재하는지 통계적으로 검정하기 위해서는, 실험 모집단에 대한 모형이 있어야 합니다. 이를 위하여, $i$번째 집단에서의 반응치가 평균$\mu_i$, 분산이 $\sigma^2$인 정규모집단을 따른다고 가정하겠습니다. 그렇다면, $i$번째 집단에서 $j$번째 반응값을 $Y_{ij}$라고 하면 $Y_{ij}$는 아래와 같이 표현할 수 있습니다. 이 때, 오차항 $\varepsilon _{ij}$은 모두 독립이고 평균이 0, 분산이 $\sigma^2$인 정규분포를 따릅니다. $k$개의 집단에서 모평균 차이가 없다는 귀무가설은 아래와 같습니다. 만약, 귀무가설이 맞다면 처리제곱합(SStr)의 값이 작아질 것이고 평균처리제곱(MStr)도 작아질 것입니다. 반면에 귀무가설이 틀리다면, 평균처리제곱(M..
2020.09.03 -
분산분석(ANOVA) 1
두 모집단 뿐만 아니라, 셋 이상의 모집단간의 평균을 비교하는 방법으로 널리 알려진 것이 분산분석(ANOVA)입니다. 예를 들어 10대, 20대, 30대, 40대의 평균 소비를 비교할 때 분산분석(ANOVA)는 활용될 수 있습니다. 분산분석은 관측값들이 달라지는 것을 여러 요인으로 나누어, 요인들이 얼마나 차이에 기여했는지를 분석하는 것입니다. 다. 여기서는 관측값의 변동을 "모집단 간의 변동"과 "모집단 내의 변동" 두 가지로 나누어서 분석을 수행하는 One-way ANOVA에 대해서 정리하도록 하겠습니다. 전체 $n=n_1+n_2+n_3+\cdots+n_k$가 있을 때 집단1은 $n_1$이고 집단k는 $n_k$라고 해보겠습니다. 만약 k=2라면 일전에 했던 두 모집단의 평균 모집단 비교와 같습니다. ..
2020.08.31 -
단순회귀분석> 잔차의 검토
단순회귀분석을 통하여 추정한 회귀모형을 활용할 때, 추정된 모형이 타당할 때, 이론적 근거가 성립할 것입니다. 그러므로, 추정된 모형이 타당한지에 대해 검토가 필요합니다. 주로, 잔차를 활용하여 추정된 모형이 타당한지를 판단합니다. 잔차 $e_i$에 대한 가정은 다음과 같습니다. (1) $e_i$의 평균은 0이다. (2)$e_i$들은 서로 독립이다.(독립성) (3)$e_i$의 분산은 $\sigma^2$이다.(등분산성) (4)$e_i$는 정규분포 N(0, $\sigma^2$)을 따른다.(정규성) 이들 조건중에서 (1)은 절편($\beta_0$)을 이용하여 우리가 항상 만족하게끔 모형을 추정할 수 있지만, (2),(3),(4)는 모형을 추정하면서 만들기가 어렵습니다. 따라서 (2),(3),(4)항목에 대해서..
2020.08.30 -
단순회귀분석 > 선형관계의 강도
지금까지 단순회귀분석에서 계수를 추정하는 것과 계수($\beta_1$)의 통계적 추론을 독립변수($x$)와 종속변수($y$)간의 선형관계가 통계적으로 유의한지 검증을 해보았습니다. 그렇다면, 우리가 추정한 모형이 얼마나 설명력을 가지는지를 어떻게 판단할 수 있을까요? 먼저 독립변수 $x_i$ 에서의 관측값$y_i$에 대응되는 예측값을$\widehat{y}$라고 하면 종속변수 $y_i$는 아래와 같이 표현 될 수 있습니다. $(\widehat{\beta}_0+\widehat{\beta}_1x_i)$는 "선형관계로 설명되는 $y$부분"을 나타내며, $(y_i-\widehat{\beta}_0+\widehat{\beta}_1x_i)$은 "선형관계로 설명되지 않은 $y$부분"을 나타냅니다. $e_i$는 잔차로 모..
2020.08.30 -
단순회귀분석에서의 추론
우리는 이전 포스팅(https://direction-f.tistory.com/37)에서 단순회귀모형에서 기울기(β1)와 절편(β0)을 최소제곱추정법을 활용하여 추정했습니다. 다만, 기울기(β1)와 절편(β0)은 관측값에 의해 값이 달라지는 확률변수입니다. 그러므로 기울기(β1)와 절편(β0)은 분포를 가지고 있습니다. 따라서 우리는 신뢰구간, 기각역등을 이용하여 단순회귀분석모형에서 기울기(β1)가 0이 아닌지를 통계적으로 검증하여, 실제로 x와 y가 통계적으로 유의한 관계를 가지는지를 알 수 있습니다. 예를 들어 아래와 같은 데이터가 있다고 가정해보겠습니다. 키 체중 A 170 70 B 180 80 C 165 65 D 150 55 4개의 데이터를 가지고 회귀분석을 해보면 아래와 같은 결과를 확인할 수 있..
2020.08.25