단순회귀분석

2020. 8. 24. 22:48데이터 분석 기본

반응형

우리는 회귀분석을 활용하여, 아래와 같은 질문에 답을 할 수 있습니다.

(1) 변수들은 서로 관련이 있는가? (2) 얼마나 밀접하게 관련이 있는가? (3) 관련이 있다면, 다른 변수를 가지고 관심있는 변수를 예측할 수 있는가?

위와 같이 회귀분석은 변수들의 관계를 규명하는데 활용되며, 회귀분석에 활용되는 변수는 독립변수(Independent variable)과 종속변수(dependent variable)가 있습니다. 독립변수는 설명변수(explanatory variable)이라고도 불리며, 연구자가 통제하는 변수입니다. 종속변수는 독립변수에 의해 결정/변화되는 변수로 주로  연구자가 관심을 가지는 변수입니다.

[단순회귀분석]

단순회귀분석은 종속변수가 1개이고, 독립변수도 1개인 가장 간단한 회귀분석입니다. 예를 들어 아버지의 키(독립변수)와 자식의 키(종속변수)간의 관계와 같은 것입니다.

단순회귀모형은 독립변수(x)와 종속변수(Y)간의 직선전인 관계를 나타내며, 아래와 같이 표현할 수 있습니다.

여기서 β0과 β1은 추정돼야 하는 미지의 회귀계수입니다. 오차 εi들은 서로 독립이며, 평균이 0, 표준편차가 σ인 정규분포를 따르는 확률변수입니다.  

이 때 종속변수 Yi는 아래와 같은 분포를 따르게 됩니다.

위 분포로부터 우리는 종속변수의 실제 관측값은 직선상의 특정한 값 β0+β1*x가 정규분포를 따르는 오차 ε에 의하여 변동된 것으로 볼 수 있습니다.

[최소제곱법(least squares method)]

최소제곱법에 들어가기 앞서 편차를 정의하는 것이 필요합니다. 편차는 종속 변수의 실제 관측값과 예측값과의 차이입니다.

최소제곱법은 위와 같은 편차들의 제곱합을 최소로하는 β0과 β1를 추정하는 방법입니다. 편차제곱합은 아래와 같이 정의 됩니다.

이 때 최소제곱추정량(least squares estimator)는 아래와 같이 표기하겠습니다.

그 다음으로, 최소제곱추정량을 정의하기에 앞서, 계산의 편의성을 위해서 몇가지 기호를 정의하겠습니다.

최소제곱추정량은 편차제곱합 D를  β0과 β1로 편미분하여 얻을 수 있습니다.

(참고: https://are.berkeley.edu/courses/EEP118/current/derive_ols.pdf)

최소제곱추정량 및 추정회귀직선은 아래와 같습니다.

반응형