평균과 표준편차

2020. 7. 8. 21:40데이터 분석 기본

반응형

자료를 다룸에 있어, 몇몇 대표 지표를 통해 자료를 해석하고 설명하는 것이 도움이 될 때가 많습니다. 특히 이러한 대표 지표 중에서도 가장 대표적으로 활용 되는 것들이 바로 평균과 표준편차 이며, 평균과 표준편차는 단순 실무에서도 많이 적용되고 있는 지표입니다. 해당 글에서는 표본의 평균, 표준편차에 대해서 설명하도록 하겠습니다.

[평균]

평균은 자료의 중심위치를 나타내는 지표중에서도 가장 많이 활용되고 있는 지표입니다. 평균도 산술평균, 기하평균, 조화평균 등 평균도 다양하게 나뉘어질 수 있지만, 우리가 흔히 알고 가장 많이 활용하고 있는 평균은 산술평균입니다.

어떤 표본들의 분포가 정규분포라고 가정해보면, 평균과 가까운 표본이 나올 가능성이 평균과 먼 표본이 나올 가능성보다 높다는 것을 유추해볼 수 있습니다.(확률보다는 가능성이 더 적절한 용어라고 판단했습니다.) 따라서 대칭적인 분포에서 평균은 충분히 우리의 자료를 대표할 수 있는 지표로 볼 수 있을 것입니다.

우리가 자주 접한 것처럼 표본들이 주어졌을 때, 평균은 아래와 같이 구할 수 있습니다.

만약 표본이 {2,3,4}가 주어졌다면 해당 표본 평균은 3이 될 것입니다.

평균은 구하기 쉽고 대체적으로 자료를 나타내는 대표 지표지만, 특이값에 의해 민감하게 반응하기도 합니다. 따라서 이러한 특이값이 많은 표본의 경우에는 중앙값이나 최빈값을 평균 대체 지표롤 활용하기도 합니다.

중앙값과 최빈값은 가볍게 말씀을 드리면, 중앙값은 전체 표본들을 크기 순으로 배열했을 때, 가운데 위치한 값입니다. 최빈값은 표본들 중에 가장 자주 나오는 값을 뜻하며, 이 최빈값은 연속적이지 않은 이산형 변수일때 적용하며, 표본이 연속형 자료일 때는 원자료에 적용하는 것은 적절하지 않을 것입니다.

[표준편차]

평균과 더불어서 자료를 설명하기 위해 가장 많이 활용하는 표본편차를 살펴보도록 하겠습니다. 먼저 편차에 대해 이야기를 하고 가는 것이 좋을 것 같습니다.

편차란 산술평균값을 우리 자료의 중심값을 나타내는 지표로써 사용할때, 각 표본값과 평균값의 차이로 정의하게 됩니다. 다만 저희가 편차의 합을 표본의 "퍼진 정도"를 나타내는 지표로 활용하지 않은 이유는 값의 왜곡이 발생하기 때문입니다.

예를 들어 앞서와 같이 평균은 3, 표본은 {2,3,4} 라고 해보겠습니다. 그렇다면 편차의 합은 아래와 같이 계산됩니다.

(2-3)+(3-3)+(4-3)=-1+0+1= 0 

표본들은 실제로 값이 퍼져있음에도 불구하고 편차의 합은 0이 되기 때문에, 편차는 "퍼진 정도"를 나타내는 값으로 부적절합니다.

따라서 분산과 표준편차의 개념이 나오게 됩니다.

먼저 분산은 편차의 제곱합을 (표본의 수(n)-1)로 나누게 됩니다.

여기서 표본의 수(n)을 활용하지 않고 n-1을 활용하는 이유는 자유도(degree of freedom)라는 개념때문입니다. 우리가 표본의 표준편차를 구하기 위해서는 표본의 평균을 활용해야 합니다. 그런데 표본의 평균은 이미 표본을 나타내는 값이기 때문에(모집단에서 뽑는 표본에 의해 달라지는 값) 1을 빼주게 된 것입니다.

(해당 내용에 대해서 좀 더 학습하고 싶으신 분은 MLE(Maximum Likelihood Estimator)관점에서 Unbaised Estimator를 증명한 자료를 참조하시면 좋을 것 같습니다. https://dawenl.github.io/files/mle_biased.pdf)

표준편차는 위의 분산의 값에 제곱근을 한 값입니다.

다시 예를 들어보도록 하겠습니다. 표본이 {2,3,4}일때 분산은 아래와 같습니다.

표준편차의 정의에 따라 표준편차의 값도 1이 될 것입니다.

평균과 표준편차에 대해 간단히 Python을 활용하여 구하는 방법입니다.

1
2
3
4
5
6
7
import numpy as np
 
sample_ = np.array([2,3,4]) # Sample 생성
np.mean(sample_) # 평균= 2
np.var(sample_, ddof=1#분산=1 , ddof=1 -> 불편추정량으로 계산(n-1)
np.std(sample_, ddof=1#표준편차=1 , ddof=1 -> 불편추정량으로 계산(n-1)
 
cs

 

 

 

 

반응형

'데이터 분석 기본' 카테고리의 다른 글

확률변수, 확률분포  (0) 2020.07.16
조건부 확률과 베이즈 정리  (2) 2020.07.14
확률의 기본 연산  (0) 2020.07.12
확률의 이해  (0) 2020.07.11
산점도, 공분산, 상관계수  (0) 2020.07.09