데이터 분석 기본(27)
-
확률의 이해
일반적으로 우리는 어떤 일이 일어날 가능성를 나타내는데 확률의 개념을 활용합니다. 확률의 개념은 저희가 무언가를 판단할 때 중요한 기준으로 작용하고 있습니다. 쉬운 예로 투자를 하는데, 돈을 잃을 확률이 높다고 여겨지면 투자를 하지 않을 것입니다. 그렇다면 통계학에서 확률은 어떻게 이야기 되고 있을까요? 통계적으로 확률을 정의하는데 앞서, 먼저 실험, 표본 공간(Sample space), 사건(event)을 먼저 정리하도록 하겠습니다. [실험, 표본공간, 사건] 여기에서의 실험은 우리가 그 실험의 결과를 사전에 정확하게 예측할 수 없는 확률실험(Random experiment)를 뜻합니다. 실험을 다시 정의해보면, 어떤 결과 나올지 모르는 상황에서 어떤 결과를 유발하는 과정을 말합니다. 표본공간은 실험에..
2020.07.11 -
산점도, 공분산, 상관계수
평균과 표준편차는 하나의 표본을 설명하는 대표적인 지표로써 활용되고 있습니다. 그렇다면 두 변수와의 관계를 나타낼 수 있는 방법은 무엇이 있을까요? 바로 대표적으로 산점도, 공분산, 상관계수가 있습니다. [산점도] 만약 변수 x와 y에 대해 (x,y)가 짝을 이루고 있다고 가정해보겠습니다. 각 변수 x, y에만 관심이 있다면 x의 평균/표준편차, y의 평균/표준편차를 이용하여 x와 y의 특징을 나타낼 수 있을 것입니다. 하지만 저희는 x와 y의 관계를 알고 싶기 때문에 x와 y를 동시에 고려해야 합니다. 이 때 가장 쉽게 적용할 수 있는 방안이 산점도를 활용하는 것입니다. 산점도는 변수 x를 수평축에 놓고 변수 y를 수직축에 놓고 각 관측값의 짝을 표시하는 것입니다. 아래와 같은 자료가 주어졌다고 해보겠..
2020.07.09 -
평균과 표준편차
자료를 다룸에 있어, 몇몇 대표 지표를 통해 자료를 해석하고 설명하는 것이 도움이 될 때가 많습니다. 특히 이러한 대표 지표 중에서도 가장 대표적으로 활용 되는 것들이 바로 평균과 표준편차 이며, 평균과 표준편차는 단순 실무에서도 많이 적용되고 있는 지표입니다. 해당 글에서는 표본의 평균, 표준편차에 대해서 설명하도록 하겠습니다. [평균] 평균은 자료의 중심위치를 나타내는 지표중에서도 가장 많이 활용되고 있는 지표입니다. 평균도 산술평균, 기하평균, 조화평균 등 평균도 다양하게 나뉘어질 수 있지만, 우리가 흔히 알고 가장 많이 활용하고 있는 평균은 산술평균입니다. 어떤 표본들의 분포가 정규분포라고 가정해보면, 평균과 가까운 표본이 나올 가능성이 평균과 먼 표본이 나올 가능성보다 높다는 것을 유추해볼 수 ..
2020.07.08