2020. 8. 30. 17:12ㆍ데이터 분석 기본
지금까지 단순회귀분석에서 계수를 추정하는 것과 계수($\beta_1$)의 통계적 추론을 독립변수($x$)와 종속변수($y$)간의 선형관계가 통계적으로 유의한지 검증을 해보았습니다.
그렇다면, 우리가 추정한 모형이 얼마나 설명력을 가지는지를 어떻게 판단할 수 있을까요?
먼저 독립변수 $x_i$ 에서의 관측값$y_i$에 대응되는 예측값을$\widehat{y}$라고 하면 종속변수 $y_i$는 아래와 같이 표현 될 수 있습니다.
$(\widehat{\beta}_0+\widehat{\beta}_1x_i)$는 "선형관계로 설명되는 $y$부분"을 나타내며, $(y_i-\widehat{\beta}_0+\widehat{\beta}_1x_i)$은 "선형관계로 설명되지 않은 $y$부분"을 나타냅니다.
$e_i$는 잔차로 모든 관측점들이 직선 위에 놓이는 경우, 모두 0이 되고 이 때 가장 강한 선형관계가 있다고 판단할 수 있습니다.
$SSE$는 잔차제곱합을 나타내며, 선형관계에서 얼마만큼 벗어낫는지를 볼 수 있습니다.
한편, $y$값들이 나타내는 변동의 크기는 $SST$로 표기되고, $y$의 총제곱합(total sum of squares)으로 측정 될 수 있습니다.
$SST$는 다시 아래와 같이 표현되며, $y$값들의 변동의 크기 중 선형관계로 설명될 수 있는 부분(SSR)과 선형관계로 설명되지 않는 변동(SSE)로 구분될 수 있습니다.
$\frac{S_{xy}^2}{S_{xx}}$가 SSR을 나타내며, SSR은 아래와 같습니다.
결론적으로, 선형모형이 어느정도 적합한가를 나타내는 측도로써, $y$값들의 총 변동 중 선형관계로 설명될 수 있는 부분의 비율이 어느정도 되는 가를 이용할 수 있습니다. 이를 $R^2$로 표기하며, 결정계수(Coefficient of determination)이라고 부릅니다.
$R^2$는 0~1까지의 값을 가지며, $R^2$의 값이 클수록 모형의 설명력이 좋다고 판단할 수 있습니다.
** 문헌에 따라 SSE와 SSR의 표현이 달라질 수 있습니다. 여기서는 SSR을 회귀제곱합(regression sum of squares)라고 표기하고 있으나, 다른 문헌에서는 SSR을 Sum of squared residuals 로 활용하여 해당 포스팅에서 언급한 SSE와 같은 뜻으로 활용하기도 합니다.
'데이터 분석 기본' 카테고리의 다른 글
분산분석(ANOVA) 1 (0) | 2020.08.31 |
---|---|
단순회귀분석> 잔차의 검토 (0) | 2020.08.30 |
단순회귀분석에서의 추론 (0) | 2020.08.25 |
단순회귀분석 (0) | 2020.08.24 |
두 모집단의 비교(표본이 작을 때, T-Test) (0) | 2020.08.20 |