통계(24)
-
두 모집단의 비교(표본이 작을 때, T-Test)
이전 포스팅(https://direction-f.tistory.com/35)에서 표본이 충분히 클 때 두 집단의 차이를 보는 통계적 추론 방안을 다루었습니다. 이번 포스팅에서는 표본의 크기가 충분히 크지 못할 때(30개 미만일 때) 어떻게 통계적 추론을 할지에 대해서 정리해보도록 하겠습니다. 독립 표본의 경우에 우리는 표본의 크기가 충분히 크지 않을 때 표준정규분포 대신 t-distribution을 활용하였습니다. 두 집단간의 차이비교도 마찬가지로 우리는 t-분포를 활용합니다. 다만 표본의 수가 충분히 클 때와 다른 점은, 공통분산을 추정한다는 것입니다. [두 모평균의 차이 추론(표본이 작을 때)] 표본이 크기가 작을 때, 두 집단의 차이에 대해서 통계적 추론을 하기 위해서는 아래와 같은 두 가지의 가정..
2020.08.20 -
두 모집단의 비교(표본이 클 때)
지금까지는 하나의 표본에 대해서 가설검정, 신뢰구간을 추정했습니다. 이번 포스팅에서는 두 표본집단에 대해서 비교를 하는 통계추론 방안에 대해서 정리해보도록 하겠습니다. 예를 들어 A지역 사람들의 평균소득과 B지역 사람들의 평균소득을 비교하는 문제와 같은 것입니다. 아래는 두 모집단으로부터 추출된 두 개의 표본과 그로부터 계산되는 통계량을 정리한 것입니다.(이전에 했던 하나의 표본으로 할때와 같습니다. 다만 그것을 두 번하는 것 뿐입니다.) 평균이 μ1이고 분산이 σ1인 모집단으로부터 추출된 표본(표본의 개수 n1): 평균이 μ2이고 분산이 σ2인 모집단으로부터 추출된 표본(표본의 개수 n2): 여기서 우리의 관심사는 μ1-μ2에 대한 추론입니다. [두 모평균의 차이 추론(표본의 크기가 충분할 때)] 두 ..
2020.08.20 -
카이제곱분포(χ2-분포)를 활용한 검정
우리는 지금까지 표준정규분포와 t-분포를 활용하여 모평균을 추론하는 방안을 정리하였습니다. 그렇다면 모표준편차에 대한 추론하는 방안은 어떻게 될까요? 생산공정에서 생산되는 평균적인 제품의 무게를 아는 것도 중요하지만 얼마나 일관되게 제품을 생산하는가도 중요한 질문이 될 수 있습니다. 따라서, 이번에는 표준편차를 추론하는 방안에 대해서 알아보겠습니다. 모분산 추정하기 위한 통계량은 표본의 분산이며, 앞에서도 여러차례 정의한것과 같이 표본분산은 아래와 같습니다. 이제 추론을 하기위해서는 표준정규분포나 t-분포와 같이 분산에 대한 분포가 필요합니다. 이 때 활용하는 것이 카이제곱분포(χ2-분포)입니다. [카이제곱분포] 정규 분포 N(μ,σ^2)를 따르는 모집단으로부터 추출된 표본은 X1, X2, ... , X..
2020.08.18 -
t 분포(t distribution)을 활용한 검정
우리는 표본의 크기가 충분히 큰 경우에는 중심극한정리에 의해 표본평균의 분포가 정규분포가 됨을 이용하여 모평균 μ에 대한 추정, 검정에 Z-검정을 활용하였습니다. [t-분포] t 분포를 활용한 검정방안은 표본의 크기가 충분하지 않고 모집단의 분산을 알기 어려울 때 적용하는 방안입니다. (우리는 앞선 포스팅에서 모집단의 표준편차를 모를때 표본의 표준편차를 적용하였습니다. 다만 이것은 표본의 크기가 부족하면 값의 차이가 있기 때문에, 표본의 크기가 작을때 t 분포를 적용합니다.) t 분포는 정규분포의 평균의 해석에 많이 활용되는 분포이며, 아래 그림과 같이 0을 중심으로 대칭이고 종모양을 하고 있습니다. 표준정규분포와 상당히 유사한 모습을 가지나, 양 꼬리부분에 상대적으로 많은 확률이 존재하여 두꺼운 꼬리를..
2020.08.17 -
가설검정 > P-value(유의확률)
아마도 데이터를 분석할 때 검증 방법론을 조금이라도 활용해보신 분은 P-value란 개념을 많이 들어보셨을 것입니다. 우리가 어떤 통계적인 검증을 수행할 때, 우리가 수립했던 가설을 채택할지 하지 않을지 결정할 때 P-value를 많이 활용합니다. [P-value] 먼저 P-value에 대해서 정의를 하고 설명을 하는 것이 좋을 것 같습니다. P-value(유의확률)이란 주어진 검정통계량 관측치로부터 귀무가설(H0)을 기각하게 하는 최소의 유의수준을 말합니다. 정의만 보면 상당히 난해한 것 같습니다. 우리는 앞선 포스팅에서 기각역을 정의하고 기각역안에 검정통계량이 포함되어야 귀무가설(H0)를 기각함을 알았습니다.(https://direction-f.tistory.com/30) 예를 들어 [H0: μ=x ..
2020.08.13 -
가설검정 > 검정통계량과 기각역
우리는 앞선 포스팅(https://direction-f.tistory.com/28)에서 두 가지의 가설을 정의하였습니다. 하나는 우리가 주장하고자 하는 가설(대립가설, H1)이고, 다른 하나는 그 주장을 입증할 수 없을 때 주장을 무효화하면서 받아들여야 하는 가설(귀무가설, H0)입니다. 그렇다면 우리는 어떤 가설을 받아들여야 하는지 어떻게 결정할 수 있을까요? 이 때 활용하는 것이 검정통계량(Test statistic)입니다. [검정통계량] 다시 앞의 포스팅의 예를 들어보도록 하겠습니다. 우리는 아래와 같이 가설을 수립했습니다. 대립가설(H1) : 다이어트 프로그램은 초등학생들의 평균 몸무게를 줄였을 것이다(μ
2020.08.12