분산분석(ANOVA) 1

2020. 8. 31. 22:25데이터 분석 기본

반응형

두 모집단 뿐만 아니라, 셋 이상의 모집단간의 평균을 비교하는 방법으로 널리 알려진 것이 분산분석(ANOVA)입니다. 예를 들어 10대, 20대, 30대, 40대의 평균 소비를 비교할 때 분산분석(ANOVA)는 활용될 수 있습니다. 

분산분석은 관측값들이 달라지는 것을 여러 요인으로 나누어, 요인들이 얼마나 차이에 기여했는지를 분석하는 것입니다. 다. 여기서는 관측값의 변동을 "모집단 간의 변동"과 "모집단 내의 변동" 두 가지로 나누어서 분석을 수행하는 One-way ANOVA에 대해서 정리하도록 하겠습니다.

전체 $n=n_1+n_2+n_3+\cdots+n_k$가 있을 때 집단1은 $n_1$이고 집단k는 $n_k$라고 해보겠습니다. 만약 k=2라면 일전에 했던 두 모집단의 평균 모집단 비교와 같습니다. 

각 집단에서 측정한 관측값들로 이루어진 자료는 아래와 같습니다.

  관측값 평균 제곱합
집단1 $y_{11}$,$y_{12}$,...,$y_{1n_1}$
$\overline{y_1}$ $\sum{(y_{1j}-\overline{y_1})^2}$
집단2 $y_{21}$,$y_{22}$,...,$y_{2n_2}$ $\overline{y_2}$ $\sum{(y_{2j}-\overline{y_2})^2}$
... ... ... ...
집단K $y_{k1}$,$y_{k2}$,...,$y_{kn_k}$ $\overline{y_k}$ $\sum{(y_{kj}-\overline{y_k})^2}$
총 평균: $\overline{y}$=$\frac{n_1\overline{y_1}+n_2\overline{y_2}+\cdots+n_k\overline{y_k}}{n_1+\cdots+n_k}$

먼저, 관측값들을 각 구성요소들로 분해해보겠습니다.

관측값($y_{ij}$) =총평균( $\overline{y}$)+처리에 의한 편차( $\overline{y_i}$- $\overline{y}$)+잔차($y_{ij}$-$\overline{y_i}$)

만약 집단간의 차이가 없다면 처리에 의한 편차( $\overline{y_i}$- $\overline{y}$)은 0에 가까운 값을 가지게 됩니다. 따라서 전체 집단간의 차이를 측정하는 것은 처리제곱합(treatment sum of squares, SStr)이라고 부르며, 아래와 같이 표현됩니다.

만약 같은 집단내에서 차이가 없다면 잔차($y_{ij}$-$\overline{y_i}$)는 0에 가까운 값을 가지게 됩니다. 따라서 집단내의 차이를 측정하는 것은 오차제곱합(error sum of squares, SSE)라고 부르며, 아래와 같이 표현됩니다.

자료에서 나타난 총변동은 모든 편차들의 제곱합으로 측정되며, 총제곱합(total sum of squares, SST)라고 부르며, 아래와 같이 표현됩니다.

최종적으로 총제곱합(SST)는 처리제곱합(SStr)과 오차제곱합(SSE)로 나타낼 수 있습니다.

이 때, 총제곱합(SST)의 자유도는 $\sum_{i=1}^{k}{n_i}-1$이며, 처리제곱합(SStr)의 자유도는 $k-1$이고, 오차제곱합(SSE)의 자유도는 $\sum_{i=1}^{k}{n_i}-k$가 됩니다.($k$는 집단의 수, $n_i$는 집단 $i$에 속한 원소의 수)

총제곱합(SST) = 처리제곱합(SStr)+오차제곱합(SSE)이며, 총제곱합을 분리하여 표의 형태로 정리를 한 것을 분산분석표(ANOVA table)이라고 부르며, 분산분석표에는 보통 평균제곱(mean square)이라는 항목이 추가되어 있습니다. 평균제곱은 제곱합/자유도로 표현합니다.

요인 제곱합 자유도 평균제곱
처리(SStr)
$k-1$ $MStr=\frac{SStr}{k-1}$
오차(SSE)
$\sum_{i=1}^{k}{n_i}-k$
합계(SST)
$\sum_{i=1}^{k}{n_i}-1$  

 

반응형