분류 전체보기(106)
-
확률분포의 기댓값(평균), 표준편차
[확률변수의 기대값(평균)] 표본자료에서 평균은 자료의 중심을 나타내는 대표적인 지표임과 동시에 그 자료를 설명하는 가장 대표적인 지표였습니다. 예를 들어 어떤 퀴즈 대회에서 상금으로 10,000원, 100,000원, 1,000,000원 10,000,000원을 지급한다고 하면 상금의 평균은 각 상금의 합을 4로 나눈 2,777,500원이 될 것이며, 퀴즈 대회에 참여한 사람들은 평균적으로 2,777,500원을 얻을 수 있을 것이라고 생각 할 수 있을 것입니다. 만약 10,000원, 100,000원, 1,000,000원 10,000,000원의 상금을 탈 확률이 다르다면 어떻게 될까요? 아마 우리가 퀴즈를 통해 평균적으로 얻을 수 있다고 생각하는 상금은 달라질 것입니다. 각 상금을 탈 확률이 아래의 표와 같..
2020.07.19 -
확률변수, 확률분포
실험을 통해 일어날 수 있는 모든 사건들의 집합인 표본공간은 사건들의 집합으로 표현할 수 있었습니다. 예를 들어 동전을 두번 던지는 실험을 했다고 가정하면 표본공간은 {HH, HT, TH, TT}으로 표현 할 수 있습니다.(H: 앞면, T: 뒷면) 이 때 우리는 앞면의 나온 수로 각 근원 사건을 표현할 수 있습니다.({2,1,1,0}) 이와 같이 표본공간의 사건들을 특정 수치로 표현할 수 있습니다. [확률변수] 이처럼 각 사건에 수치를 대응시키는 것을 확률변수(Random variable)라고 합니다. 즉, 확률변수는 각각의 사건들에 실수값을 대응시키는 함수라고 정의 할 수 있습니다. 예를 들어보겠습니다. 세 사람이 있고 세 사람은 아이폰이나 갤럭시 중 하나를 가지고 있다고 가정해보겠습니다. 그렇다면 이..
2020.07.16 -
다항회귀모형을 이용한 주가 예측
지난번 포스팅에서 단순 회귀를 이용하여 주가의 추세를 분석해 보았습니다. 하지만 단순 회귀는 선형적으로만 추세를 추정하기 때문에 비선형성을 전혀 반영할 수 없었습니다. 그렇기 때문에 이번에는 비선형성을 반영할 수 있는 다항회귀모형(Polynomial Regression)을 활용하여 주가를 분석해 보도록 하겠습니다. 기본 단순 회귀 모형이 Y= αX+β의 모습을 가졌다면 다항회귀모형은 아래와 같은 모습을 가졌습니다. 기존의 독립변수 X를 제곱한 값을 또 하나의 독립 변수로 활용하는 것입니다. 이렇게 되면 독립변수 X와 종속변수 y간의 비선형적인 관계도 분석할 수 있게 됩니다. 단순회귀모형 포스팅(https://direction-f.tistory.com/8)에서와 마찬가지로 필요한 Module과 수집한 삼성..
2020.07.15 -
조건부 확률과 베이즈 정리
두 개 이상의 사건이 있을 때 한 사건이 다른 사건의 확률에 영향을 미치는 경우를 본 적이 있으실 겁니다. 예를 들어 성인 남성과 남자 아동이 함께 있는 집단에서 임의로 한 사람을 뽑았을 때 그 사람이 성인 남성인 사건을 A라고 키가 180cm 이상일 사건을 B라고 해보겠습니다. 그렇다면 전체 집단에서 임의적으로 특정 인원을 뽑았을 때 성인 남성일 확률과 키가 180cm이상인 사람이 뽑혔을 때 성인 남성일 확률이 상이할 것이라는 것을 우리는 직관적으로 알 수 있습니다. [조건부 확률] 위의 예와 같이 사건 B와 관련된 정보가 우선적으로(사전적으로) 주어졌을 때 사건 A의 변화된 확률을 "B가 주어졌을 때 사건 A의 조건부 확률"이라고 하며 P(A|B)로 표기 합니다. 조건부 확률을 계산하는 공식은 아래와..
2020.07.14 -
단순회귀모형을 이용한 주가 예측
앞의 글(https://direction-f.tistory.com/6)에서 어떻게 하면 주가 데이터를 수집할지에 대해서 정리하였습니다. 이번에는 수집한 데이터를 활용하는 방법에 대해서 정리하도록 하겠습니다. 먼저 기본적인 모형인 단순회귀모형을 이용하여 주가를 예측하는 모델을 구성해보겠습니다. 사실 단순회귀모형은 주가를 예측하는데 탁월한 예측력을 제공해주는 모형은 아닙니다. 왜냐하면 주가는 변동성이 심해, 올라갔다 내려갔다를 반복하는데, 회귀모형은 이러한 변동성을 잡아내기 어렵기 때문입니다. 그래서 정확한 예측을 위해선 변동성을 일부 반영 할 수 있는 ARIMA/ARIMAX같은 시계열 모형이나, RNN/LSTM과 같은 딥러닝 모형이 활발히 적용되고 있습니다. 그럼에도 불구하고, 전문적인 분석모델링을 하는 ..
2020.07.13 -
금융 데이터 수집
금융 분석을 하기 위해서 주가 데이터를 가져오는 방안에 대해서 정리해보려고 합니다. 주가 데이터를 가져오는 방안으로는 크게 3가지가 있는 것 같습니다. 1) 수동으로 주가 데이터를 다운로드 받는 방법 2) 증권사 API를 통해 수집하는 방법 3) 웹 크롤링(네이버 금융)을 통해 수집하는 방법입니다. 저의 경우에는 키움증권 API를 통해 데이터를 수집하기도 하지만 효율이 떨어지는 것 같습니다. 단순히 분석을 위해서는 주로 1)수동 다운로드 2) 웹 크롤링을 주로 활용하고 있습니다. 따라서 이 두가지 방안에 대해서 간략히 정리하도록 하겠습니다. 먼저 수동으로 다운로드 받는 경우입니다. 저의 경우에는 이 때는 Yahoo Finance(https://finance.yahoo.com/)를 자주 활용하는데요, Ya..
2020.07.12