데이터 분석 기본(27)
-
포아송 분포
만약 우리가 금은방을 운영하고 있다고 가정해보겠습니다. 퇴근 후 한 시간에 도둑이이 10명 올 확률은 어떻게 될까요? 100명이 올 확률은 어떻게 될까요?(도둑이 오면 안되겠지만요...) 이와 같이 일정 기간 동안에 확률이 낮은 특정 사건이 일어날 확률을 나타내기 위해 활용하는 것이 포아송 분포입니다. 다시 위의 예를 좀 더 깊게 들여보다면 저 확률을 이항분포로 나타낼 수 있지 않을까? 하는 생각이 드실 수도 있습니다. 다시 말하면 1분에 도둑이 올 확률이 0.01 오지 않을 확률이 0.99라면 이는 결과가 두 가지 뿐인 베르누이 시행으로 간주할 수 있습니다. 따라서 한 시간(60분)은 베르누이 시행을 60번 시행했다고 볼 수 있을 것입니다. 하지만 도둑이 1분에 한명만 오는 것이라고 한정할 수 없습니다..
2020.07.23 -
베르누이 시행과 이항 분포
[베르누이 시행] 실험을 통해 얻을 수 있는 결과가 두 가지만 있다고 생각해보겠습니다. 예를 들어 동전을 던지는 실험을 했을 때 우리가 얻을 수 있는 결과는 앞면(H)와 뒷면(T) 두 가지 뿐입니다. 예와 같이 두 가지의 결과만 반복해서 나오며, 아래와 같은 조건을 만족하는 경우 이를 베르누이 시행이라고 부릅니다. 1) 각 시행은 성공(S), 실패(F)의 두 결과만을 갖는다(우리가 흔히 사용하는 성공의, 실패의 의미와는 무관, 결과가 두 개 뿐임을 강조) 2) 각 시행에서 성공할 확률 P(S)=p, 실패활 확률 P(F)=q(=1-p)로 그 값이 일정함 3) 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않음 [이항분포(Binomial distribution)] 위와 같은 조..
2020.07.20 -
확률분포의 기댓값(평균), 표준편차
[확률변수의 기대값(평균)] 표본자료에서 평균은 자료의 중심을 나타내는 대표적인 지표임과 동시에 그 자료를 설명하는 가장 대표적인 지표였습니다. 예를 들어 어떤 퀴즈 대회에서 상금으로 10,000원, 100,000원, 1,000,000원 10,000,000원을 지급한다고 하면 상금의 평균은 각 상금의 합을 4로 나눈 2,777,500원이 될 것이며, 퀴즈 대회에 참여한 사람들은 평균적으로 2,777,500원을 얻을 수 있을 것이라고 생각 할 수 있을 것입니다. 만약 10,000원, 100,000원, 1,000,000원 10,000,000원의 상금을 탈 확률이 다르다면 어떻게 될까요? 아마 우리가 퀴즈를 통해 평균적으로 얻을 수 있다고 생각하는 상금은 달라질 것입니다. 각 상금을 탈 확률이 아래의 표와 같..
2020.07.19 -
확률변수, 확률분포
실험을 통해 일어날 수 있는 모든 사건들의 집합인 표본공간은 사건들의 집합으로 표현할 수 있었습니다. 예를 들어 동전을 두번 던지는 실험을 했다고 가정하면 표본공간은 {HH, HT, TH, TT}으로 표현 할 수 있습니다.(H: 앞면, T: 뒷면) 이 때 우리는 앞면의 나온 수로 각 근원 사건을 표현할 수 있습니다.({2,1,1,0}) 이와 같이 표본공간의 사건들을 특정 수치로 표현할 수 있습니다. [확률변수] 이처럼 각 사건에 수치를 대응시키는 것을 확률변수(Random variable)라고 합니다. 즉, 확률변수는 각각의 사건들에 실수값을 대응시키는 함수라고 정의 할 수 있습니다. 예를 들어보겠습니다. 세 사람이 있고 세 사람은 아이폰이나 갤럭시 중 하나를 가지고 있다고 가정해보겠습니다. 그렇다면 이..
2020.07.16 -
조건부 확률과 베이즈 정리
두 개 이상의 사건이 있을 때 한 사건이 다른 사건의 확률에 영향을 미치는 경우를 본 적이 있으실 겁니다. 예를 들어 성인 남성과 남자 아동이 함께 있는 집단에서 임의로 한 사람을 뽑았을 때 그 사람이 성인 남성인 사건을 A라고 키가 180cm 이상일 사건을 B라고 해보겠습니다. 그렇다면 전체 집단에서 임의적으로 특정 인원을 뽑았을 때 성인 남성일 확률과 키가 180cm이상인 사람이 뽑혔을 때 성인 남성일 확률이 상이할 것이라는 것을 우리는 직관적으로 알 수 있습니다. [조건부 확률] 위의 예와 같이 사건 B와 관련된 정보가 우선적으로(사전적으로) 주어졌을 때 사건 A의 변화된 확률을 "B가 주어졌을 때 사건 A의 조건부 확률"이라고 하며 P(A|B)로 표기 합니다. 조건부 확률을 계산하는 공식은 아래와..
2020.07.14 -
확률의 기본 연산
우리가 실제 어떤 사건의 확률을 계산할 때는 여러 관계 있는 사건들을 활용하는 것이 효율적인 경우가 많습니다. 예를 들어 주사위를 한 번 던졌을 때, 짝수면서 3보다 이하인 숫자가 나올 확률을 구해보는 문제가 있다고 해보겠습니다. 위의 문제는 "짝수인 사건" 과 "3보다 이하인 숫자가 나온 사건"을 활용하여 쉽게 확률을 도출해 볼 수 있습니다. 이러한 효율적인 계산을 위해서 사건들의 기본 연산인 여사건, 합사건, 곱사건에 대해서 살펴보겠습니다. [여사건, 합사건, 곱사건] 여사건은 특정 사건 A가 있을 때 A에 포함되지 않은 근원사건들의 모임으로 나타냅니다. 따라서 특정 사건 A와 특정 사건 A의 여집합의 확률의 합은 1이 됩니다. 따라서 여사건의 확률법칙은 아래와 같습니다. 곱사건은 사건 A와 사건 B..
2020.07.12