단순회귀분석 > 선형관계의 강도

2020. 8. 30. 17:12데이터 분석 기본

반응형

지금까지 단순회귀분석에서 계수를 추정하는 것과 계수($\beta_1$)의 통계적 추론을 독립변수($x$)와 종속변수($y$)간의  선형관계가 통계적으로 유의한지 검증을 해보았습니다.

그렇다면, 우리가 추정한 모형이 얼마나 설명력을 가지는지를 어떻게 판단할 수 있을까요?

먼저 독립변수 $x_i$ 에서의 관측값$y_i$에 대응되는 예측값을$\widehat{y}$라고 하면 종속변수 $y_i$는 아래와 같이 표현 될 수 있습니다.


$(\widehat{\beta}_0+\widehat{\beta}_1x_i)$는 "선형관계로 설명되는 $y$부분"을 나타내며, $(y_i-\widehat{\beta}_0+\widehat{\beta}_1x_i)$은 "선형관계로 설명되지 않은 $y$부분"을 나타냅니다. 

$e_i$는 잔차로 모든 관측점들이 직선 위에 놓이는 경우, 모두 0이 되고 이 때 가장 강한 선형관계가 있다고 판단할 수 있습니다. 

$SSE$는 잔차제곱합을 나타내며, 선형관계에서 얼마만큼 벗어낫는지를 볼 수 있습니다.

한편, $y$값들이 나타내는 변동의 크기는 $SST$로 표기되고, $y$의 총제곱합(total sum of squares)으로 측정 될 수 있습니다.

$SST$는  다시 아래와 같이 표현되며, $y$값들의 변동의 크기 중 선형관계로 설명될 수 있는 부분(SSR)과 선형관계로 설명되지 않는 변동(SSE)로 구분될 수 있습니다.

$\frac{S_{xy}^2}{S_{xx}}$가 SSR을 나타내며, SSR은 아래와 같습니다.

결론적으로, 선형모형이 어느정도 적합한가를 나타내는 측도로써,  $y$값들의 총 변동 중 선형관계로 설명될 수 있는 부분의 비율이 어느정도 되는 가를 이용할 수 있습니다. 이를 $R^2$로 표기하며, 결정계수(Coefficient of determination)이라고 부릅니다.

$R^2$는 0~1까지의 값을 가지며, $R^2$의 값이 클수록 모형의 설명력이 좋다고 판단할 수 있습니다.

 

** 문헌에 따라 SSE와 SSR의 표현이 달라질 수 있습니다. 여기서는 SSR을 회귀제곱합(regression sum of squares)라고 표기하고 있으나, 다른 문헌에서는 SSR을 Sum of squared residuals 로 활용하여 해당 포스팅에서 언급한 SSE와 같은 뜻으로 활용하기도 합니다.

반응형

'데이터 분석 기본' 카테고리의 다른 글

분산분석(ANOVA) 1  (0) 2020.08.31
단순회귀분석> 잔차의 검토  (0) 2020.08.30
단순회귀분석에서의 추론  (0) 2020.08.25
단순회귀분석  (0) 2020.08.24
두 모집단의 비교(표본이 작을 때, T-Test)  (0) 2020.08.20