2020. 7. 16. 22:10ㆍ데이터 분석 기본
실험을 통해 일어날 수 있는 모든 사건들의 집합인 표본공간은 사건들의 집합으로 표현할 수 있었습니다. 예를 들어 동전을 두번 던지는 실험을 했다고 가정하면 표본공간은 {HH, HT, TH, TT}으로 표현 할 수 있습니다.(H: 앞면, T: 뒷면)
이 때 우리는 앞면의 나온 수로 각 근원 사건을 표현할 수 있습니다.({2,1,1,0}) 이와 같이 표본공간의 사건들을 특정 수치로 표현할 수 있습니다.
[확률변수]
이처럼 각 사건에 수치를 대응시키는 것을 확률변수(Random variable)라고 합니다. 즉, 확률변수는 각각의 사건들에 실수값을 대응시키는 함수라고 정의 할 수 있습니다.
예를 들어보겠습니다. 세 사람이 있고 세 사람은 아이폰이나 갤럭시 중 하나를 가지고 있다고 가정해보겠습니다. 그렇다면 이 때 아이폰을 가지고 있는 근원 사건은 아래와 같이 총 8가지로 표현할 수 있습니다.
A | B | C |
아이폰 | 아이폰 | 아이폰 |
아이폰 | 아이폰 | 갤럭시 |
아이폰 | 갤럭시 | 갤럭시 |
아이폰 | 갤럭시 | 아이폰 |
갤럭시 | 갤럭시 | 갤럭시 |
갤럭시 | 갤럭시 | 아이폰 |
갤럭시 | 아이폰 | 아이폰 |
갤럭시 | 아이폰 | 갤럭시 |
근원사건과 아이폰을 가지고 있는 사람 수(X)를 대응해보겠습니다.
A | B | C | X |
아이폰 | 아이폰 | 아이폰 | 3 |
아이폰 | 아이폰 | 갤럭시 | 2 |
아이폰 | 갤럭시 | 갤럭시 | 1 |
아이폰 | 갤럭시 | 아이폰 | 2 |
갤럭시 | 갤럭시 | 갤럭시 | 0 |
갤럭시 | 갤럭시 | 아이폰 | 1 |
갤럭시 | 아이폰 | 아이폰 | 2 |
갤럭시 | 아이폰 | 갤럭시 | 1 |
이 때 우리는 아이폰을 가지고 있는 사람 수(X)는 근원사건을 특정 숫자로 대응하게 해주는 확률변수이며, 확률 값을 가지게 됩니다.
확률변수가 위의 예처럼 셀 수 있는 경우라면 "이산확률변수", 셀 수 없이 구간에서 연속인 확률변수는 "연속확률변수"라고 정의 할 수 있습니다.
[확률분포]
확률변수는 각각 확률 값을 가지게 됩니다. 확률변수가 가질 확률을 정해주는 관계를 확률분포(Probability distribution)이라고 부르며, 확률변수가 가지는 값과 그 확률변수에 대응하는 확률값을 나타내는 것입니다.
위의 예(아이폰을 가진 사람 수)를 활용하여 확률분포를 자세히 알아보겠습니다.
근원사건 | 확률변수 | 확률 |
(아이폰,아이폰,아이폰) | 3 | 1/8 |
(아이폰,아이폰,갤럭시)/(아이폰,갤럭시,아이폰)/(갤럭시,아이폰,아이폰) | 2 | 3/8 |
(갤럭시,갤럭시,아이폰)/(갤럭시,아이폰,갤럭시)/(아이폰,갤럭시,갤럭시) | 1 | 3/8 |
(갤럭시,갤럭시,갤럭시) | 0 | 1/8 |
위의 표에서 확인 할 수 있듯이 각 확률변수에 대응하는 확률로 분포는 표현됩니다. 이 때 확률분포의 값은 1보다 작아야 하며, 확률의 합은 1이 되어야 합니다.
'데이터 분석 기본' 카테고리의 다른 글
베르누이 시행과 이항 분포 (0) | 2020.07.20 |
---|---|
확률분포의 기댓값(평균), 표준편차 (0) | 2020.07.19 |
조건부 확률과 베이즈 정리 (2) | 2020.07.14 |
확률의 기본 연산 (0) | 2020.07.12 |
확률의 이해 (0) | 2020.07.11 |