2020. 7. 11. 15:29ㆍ데이터 분석 기본
일반적으로 우리는 어떤 일이 일어날 가능성를 나타내는데 확률의 개념을 활용합니다. 확률의 개념은 저희가 무언가를 판단할 때 중요한 기준으로 작용하고 있습니다. 쉬운 예로 투자를 하는데, 돈을 잃을 확률이 높다고 여겨지면 투자를 하지 않을 것입니다. 그렇다면 통계학에서 확률은 어떻게 이야기 되고 있을까요?
통계적으로 확률을 정의하는데 앞서, 먼저 실험, 표본 공간(Sample space), 사건(event)을 먼저 정리하도록 하겠습니다.
[실험, 표본공간, 사건]
여기에서의 실험은 우리가 그 실험의 결과를 사전에 정확하게 예측할 수 없는 확률실험(Random experiment)를 뜻합니다. 실험을 다시 정의해보면, 어떤 결과 나올지 모르는 상황에서 어떤 결과를 유발하는 과정을 말합니다. 표본공간은 실험에서 유발된 실현가능한 모든 기본 결과들을 모아놓은 집합입니다. 즉, 실험에서 실현가능한 모든 결과들을 모아 놓은 것입니다. 사건은 위의 표본공간의 부분집합을 나타냅니다. 예를 통해 이해하는 것이 가장 좋을 것 같습니다.
[예시] 실험 : 주사위를 던진다 표본공간 : 주사위에서 나올 수 있는 모든 결과({1,2,3,4,5,6}) 사건: "짝수값" 관찰 사건 ({2,4,6}), "홀수값" 관찰 사건 ({1,3,5}), "숫자 1" 관찰 사건({1}) 등등 표본공간으로 이루어진 부분집합 |
위의 예처럼 표본공간이 {1,2,3,4,5,6}으로 이루어 진다면, 이 각각의 숫자를 근원사건이라고 하게 됩니다. 이때 각 근원사건들은 상호배타적(mutually exlusive)으로 구성되어 있으며(주사위를 한 번 던졌을 때 1와 2가 동시에 나올수가 없습니다.), 이 상호배타적인 특성으로 인해 각 특정 근원사건을 얻을 확률은 1/(전체 근원사건들의 수) 입니다.
[확률의 개념]
실험, 표본공간, 사건에 대해서 살펴보았습니다. 그렇다면 위에서 언급된 개념들을 이용하여 확률의 개념을 정리하고자 합니다. 표본공간 S를 아래와 같이 구성 되어 있고 e는 표본공간을 이루는 사건이라고 생각해 보겠습니다.
이 때 아래와 같은 3가지 조건을 만족해야 확률로 정의 할 수 있습니다.
위 처럼 확률은 여러 가지 사건이 나타날 수 있을 때 특정한 사건이 일어날 가능성을 수치로 나타낸 것이고 0부터 1사이의 비율로 나타나집니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
import numpy as np
S = np.array([1,2,3,4,5,6]) ## 표본공간
# 짝수가 나올 확률
even = S[S%2==0]
even_prob = len(even)/len(S)
print("짝수가 나올 확률:", even_prob) ## 0.5
# 2보다 큰 수가 나올 확률
above_2 = S[S>2]
above_2_prob = len(above_2)/len(S)
print("2보다 큰수가 나올 확률:", round(above_2_prob,2)) ## 0.67
## 1과 3이 나올 확률 = 1이 나올 확률 + 3이 나올 확률
onethree= S[(S==1) | (S==3)]
onethree_prob = len(onethree)/len(S)
one = S[S==1]
three =S[S==3]
one_prob = len(one)/len(S)
three_prob = len(three)/len(S)
print(onethree_prob==(one_prob+three_prob)) ## True
|
cs |
'데이터 분석 기본' 카테고리의 다른 글
확률변수, 확률분포 (0) | 2020.07.16 |
---|---|
조건부 확률과 베이즈 정리 (2) | 2020.07.14 |
확률의 기본 연산 (0) | 2020.07.12 |
산점도, 공분산, 상관계수 (0) | 2020.07.09 |
평균과 표준편차 (0) | 2020.07.08 |