분류 전체보기(106)
-
단순회귀분석> 잔차의 검토
단순회귀분석을 통하여 추정한 회귀모형을 활용할 때, 추정된 모형이 타당할 때, 이론적 근거가 성립할 것입니다. 그러므로, 추정된 모형이 타당한지에 대해 검토가 필요합니다. 주로, 잔차를 활용하여 추정된 모형이 타당한지를 판단합니다. 잔차 $e_i$에 대한 가정은 다음과 같습니다. (1) $e_i$의 평균은 0이다. (2)$e_i$들은 서로 독립이다.(독립성) (3)$e_i$의 분산은 $\sigma^2$이다.(등분산성) (4)$e_i$는 정규분포 N(0, $\sigma^2$)을 따른다.(정규성) 이들 조건중에서 (1)은 절편($\beta_0$)을 이용하여 우리가 항상 만족하게끔 모형을 추정할 수 있지만, (2),(3),(4)는 모형을 추정하면서 만들기가 어렵습니다. 따라서 (2),(3),(4)항목에 대해서..
2020.08.30 -
단순회귀분석 > 선형관계의 강도
지금까지 단순회귀분석에서 계수를 추정하는 것과 계수($\beta_1$)의 통계적 추론을 독립변수($x$)와 종속변수($y$)간의 선형관계가 통계적으로 유의한지 검증을 해보았습니다. 그렇다면, 우리가 추정한 모형이 얼마나 설명력을 가지는지를 어떻게 판단할 수 있을까요? 먼저 독립변수 $x_i$ 에서의 관측값$y_i$에 대응되는 예측값을$\widehat{y}$라고 하면 종속변수 $y_i$는 아래와 같이 표현 될 수 있습니다. $(\widehat{\beta}_0+\widehat{\beta}_1x_i)$는 "선형관계로 설명되는 $y$부분"을 나타내며, $(y_i-\widehat{\beta}_0+\widehat{\beta}_1x_i)$은 "선형관계로 설명되지 않은 $y$부분"을 나타냅니다. $e_i$는 잔차로 모..
2020.08.30 -
단순회귀분석에서의 추론
우리는 이전 포스팅(https://direction-f.tistory.com/37)에서 단순회귀모형에서 기울기(β1)와 절편(β0)을 최소제곱추정법을 활용하여 추정했습니다. 다만, 기울기(β1)와 절편(β0)은 관측값에 의해 값이 달라지는 확률변수입니다. 그러므로 기울기(β1)와 절편(β0)은 분포를 가지고 있습니다. 따라서 우리는 신뢰구간, 기각역등을 이용하여 단순회귀분석모형에서 기울기(β1)가 0이 아닌지를 통계적으로 검증하여, 실제로 x와 y가 통계적으로 유의한 관계를 가지는지를 알 수 있습니다. 예를 들어 아래와 같은 데이터가 있다고 가정해보겠습니다. 키 체중 A 170 70 B 180 80 C 165 65 D 150 55 4개의 데이터를 가지고 회귀분석을 해보면 아래와 같은 결과를 확인할 수 있..
2020.08.25 -
단순회귀분석
우리는 회귀분석을 활용하여, 아래와 같은 질문에 답을 할 수 있습니다. (1) 변수들은 서로 관련이 있는가? (2) 얼마나 밀접하게 관련이 있는가? (3) 관련이 있다면, 다른 변수를 가지고 관심있는 변수를 예측할 수 있는가? 위와 같이 회귀분석은 변수들의 관계를 규명하는데 활용되며, 회귀분석에 활용되는 변수는 독립변수(Independent variable)과 종속변수(dependent variable)가 있습니다. 독립변수는 설명변수(explanatory variable)이라고도 불리며, 연구자가 통제하는 변수입니다. 종속변수는 독립변수에 의해 결정/변화되는 변수로 주로 연구자가 관심을 가지는 변수입니다. [단순회귀분석] 단순회귀분석은 종속변수가 1개이고, 독립변수도 1개인 가장 간단한 회귀분석입니다...
2020.08.24 -
두 모집단의 비교(표본이 작을 때, T-Test)
이전 포스팅(https://direction-f.tistory.com/35)에서 표본이 충분히 클 때 두 집단의 차이를 보는 통계적 추론 방안을 다루었습니다. 이번 포스팅에서는 표본의 크기가 충분히 크지 못할 때(30개 미만일 때) 어떻게 통계적 추론을 할지에 대해서 정리해보도록 하겠습니다. 독립 표본의 경우에 우리는 표본의 크기가 충분히 크지 않을 때 표준정규분포 대신 t-distribution을 활용하였습니다. 두 집단간의 차이비교도 마찬가지로 우리는 t-분포를 활용합니다. 다만 표본의 수가 충분히 클 때와 다른 점은, 공통분산을 추정한다는 것입니다. [두 모평균의 차이 추론(표본이 작을 때)] 표본이 크기가 작을 때, 두 집단의 차이에 대해서 통계적 추론을 하기 위해서는 아래와 같은 두 가지의 가정..
2020.08.20 -
두 모집단의 비교(표본이 클 때)
지금까지는 하나의 표본에 대해서 가설검정, 신뢰구간을 추정했습니다. 이번 포스팅에서는 두 표본집단에 대해서 비교를 하는 통계추론 방안에 대해서 정리해보도록 하겠습니다. 예를 들어 A지역 사람들의 평균소득과 B지역 사람들의 평균소득을 비교하는 문제와 같은 것입니다. 아래는 두 모집단으로부터 추출된 두 개의 표본과 그로부터 계산되는 통계량을 정리한 것입니다.(이전에 했던 하나의 표본으로 할때와 같습니다. 다만 그것을 두 번하는 것 뿐입니다.) 평균이 μ1이고 분산이 σ1인 모집단으로부터 추출된 표본(표본의 개수 n1): 평균이 μ2이고 분산이 σ2인 모집단으로부터 추출된 표본(표본의 개수 n2): 여기서 우리의 관심사는 μ1-μ2에 대한 추론입니다. [두 모평균의 차이 추론(표본의 크기가 충분할 때)] 두 ..
2020.08.20