데이터 분석 기본(27)
-
가설검정
가설검정(Testing statistical hypotheses)은 모수에 대한 가설이 적합한지를 추출한 표본으로부터 판단하는 것을 나타내는 것입니다. 전국의 초등학교에서 6학년의 비만인 남자 학생(모집단)의 체중 평균이 70이고 표준편차가 7라고 가정해보겠습니다. 동시에 교육부에서 특정 다이어트 프로그램을 대대적으로 홍보했다고 가정해보겠습니다. 그럼 이러한 다이어트 프로그램 수행을 통해서 실제로 평균이 낮아졌는지를 판단하기 위해서 어떠한 과정을 거쳐야 할까요? 이러한 질문에 답을 하기 위해서 필요한 것이 가설검정입니다. 다이어트 프로그램 수행 후의 비만인 남자 학생들의 평균 몸무게를 μ라고 해보겠습니다. 우리는 전국의 비만인 남자 학생들을 다 조사할 수 없기 때문에 표본을 추출하여 표본의 평균을 구하는..
2020.08.06 -
통계적 추론(구간 추정)
점 추정은 모집단의 특성을 나타내는 하나의 값을 추정하는 것이었습니다. 반면 구간 추정(Interval Estimation)은 추정량(Estimator)의 분포를 활용하여 모집단의 특성을 나타내는 값을 포함하리라고 생각되는 구간을 추정하는 것입니다. [구간 추정] 우리가 구간을 추정을 통해 모수 값(모집단의 특성을 나타내는 값)을 포함하는 구간을 추정하는데, 이 구간을 신뢰구간(Confidence Interval)이라고 부릅니다. 신뢰구간은 상한과 하한이 있고 (L,U)형태로 가지게 됩니다. 이 때 L이 -∞이고 U가 ∞라면 모수 값이 어떻게 되더라도 신뢰구간에 포함되게 될 것입니다. 따라서 우리는 상한과 하한값을 제한 할 필요가 있습니다. 이 필요로 인해서 우리가 흔히 들어본 95% 신뢰구간, 90% ..
2020.08.04 -
통계적 추론(점 추정)
통계적 추론이란 우리가 가지고 있는 표본으로부터 모집단의 특성을 추론하는 것을 말합니다. 다시 말하면, 통계적 추론은 표본으로부터 모집단의 특성을 유도하고 그 특성이 옳은지 그른지를 판단하는 것입니다. 모집단의 특성을 추정하는 것에는 점 추정(Point Estimiation)과 구간 추정(Interval Estimation)이 있습니다. 점추정은 모집단의 특성을 나타내리라 생각하는 하나의 값을 추정하는 것이고, 구간 추정은 하나의 값만을 추정하는 것이 아니라 모수를 포함하리라 생각하는 적절한 구간을 추정하는 것입니다. [점 추정] 모수를 추정하기 위해 모집단에서 크기가 n인 표본을 추출한다고 가정해보겠습니다. 그렇다면, 표본의 평균은 아래와 같을 것입니다. 이때 표본의 평균은 추정량(estimator)가..
2020.08.03 -
표본평균의 분포와 중심극한 정리
주어진 표본으로부터 모집단의 특성을 파악하는 것을 "추론"이라고 하며 어떻게 보면 통계학의 가장 중심이 되는 것이라고 볼 수 있습니다. 이 때, 모집단의 특성을 수치적으로 표현하는 것을 모수(Parameter)라고 합니다. 이러한 모수를 추정하기 위해서는 모집단 전체를 다 조사해야합니다. 하지만 모집단을 전부 조사하는 것은 일반적으로 어려운 일입니다. 따라서 제한된 표본으로부터 표본에서 적절한 양을 계산하여 활용하게 되는데, 이를 통계량(Statistic)이라고 부릅니다. 통계량은 표본의 관측값들에 의해 정의되는 양을 뜻합니다. 그렇다면 통계량은 모집단이 동일하더라도 표본이 바뀔때마다 바뀌는 양이 되게 됩니다. 그러므로 여러번의 표본을 뽑으면 통계량도 특정 확률분포를 갖게 됩니다. 이때 이 확률분포를 표..
2020.07.31 -
정규점수, 정규확률그림
우리가 표본을 추출하였을 때, 정규분포를 따른다고 가정이 맞는지 잘 못 됐는지 어떻게 판단 할 수 있을까요? 해당 가정을 쉽게 추정해 볼 수 있는 방법으로 정규점수그림 또는 정규확률그림이란 것이 있습니다. [정규점수] 정규점수라는 것은 표준정규분포(평균 0, 표준편차 1)에서의 이상적인 표본을 말합니다. 다시 말하면, 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어 주는 경계값(z값)을 의미합니다. 만약 우리가 표본이 있다고 가정한다면, 평균 근처에 값들의 빈도가 높아야 정규분포에 가깝다고 판단 할 수 있을 것입니다. 위에 그림을 보시면 초록색 줄 사이에 값들은 등확률입니다. 즉 줄 사이에 넓이들이 같습니다. 만약 우리가 9개의 표본을 가지고 있다면, 초록색 줄과 x축이 만나는 점(여기가 정규점수 입..
2020.07.30 -
연속확률분포, 정규분포, 표준정규분포
우리가 셀 수 있는 확률변수들의 분포를 이산확률분포라고 불렀습니다. 이러한 이상확률분포 중에는 대표적으로 이항분포와 포아송 분포가 있었습니다. 이산확률분포와는 다르게, 정규분포는 0과 1사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속확률분포입니다. 정규분포는 연속적인 값을 가지는 확률변수의 분포를 나타내는데 가장 많이 적용되고 있는 분포입니다. 정규분포 외에도 데이터에 따라 더 적합한 분포들도 많이 제안되어 왔지만, 여전히 가장 강력하고 일상적으로 적용되고 있는 분포입니다. [연속활률분포] 본격적으로 정규분포에 대해서 알아보기 전에, 연속확률분포에 대해서 알아보겠습니다. 연속확률분포는 이산확률분포처럼 발생가능한 모든 값에 확률을 대응/나열하여 표현하기가 어렵습니다. 발생 가능한 값이 무한대..
2020.07.26