전체 글(115)
-
표본평균의 분포와 중심극한 정리
주어진 표본으로부터 모집단의 특성을 파악하는 것을 "추론"이라고 하며 어떻게 보면 통계학의 가장 중심이 되는 것이라고 볼 수 있습니다. 이 때, 모집단의 특성을 수치적으로 표현하는 것을 모수(Parameter)라고 합니다. 이러한 모수를 추정하기 위해서는 모집단 전체를 다 조사해야합니다. 하지만 모집단을 전부 조사하는 것은 일반적으로 어려운 일입니다. 따라서 제한된 표본으로부터 표본에서 적절한 양을 계산하여 활용하게 되는데, 이를 통계량(Statistic)이라고 부릅니다. 통계량은 표본의 관측값들에 의해 정의되는 양을 뜻합니다. 그렇다면 통계량은 모집단이 동일하더라도 표본이 바뀔때마다 바뀌는 양이 되게 됩니다. 그러므로 여러번의 표본을 뽑으면 통계량도 특정 확률분포를 갖게 됩니다. 이때 이 확률분포를 표..
2020.07.31 -
정규점수, 정규확률그림
우리가 표본을 추출하였을 때, 정규분포를 따른다고 가정이 맞는지 잘 못 됐는지 어떻게 판단 할 수 있을까요? 해당 가정을 쉽게 추정해 볼 수 있는 방법으로 정규점수그림 또는 정규확률그림이란 것이 있습니다. [정규점수] 정규점수라는 것은 표준정규분포(평균 0, 표준편차 1)에서의 이상적인 표본을 말합니다. 다시 말하면, 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어 주는 경계값(z값)을 의미합니다. 만약 우리가 표본이 있다고 가정한다면, 평균 근처에 값들의 빈도가 높아야 정규분포에 가깝다고 판단 할 수 있을 것입니다. 위에 그림을 보시면 초록색 줄 사이에 값들은 등확률입니다. 즉 줄 사이에 넓이들이 같습니다. 만약 우리가 9개의 표본을 가지고 있다면, 초록색 줄과 x축이 만나는 점(여기가 정규점수 입..
2020.07.30 -
CNN을 활용한 주가 방향 예측
이번 포스팅에서는 시계열 데이터에 Convolutional neural network을 적용하여 주가 방향을 예측해보도록 하겠습니다. Convolutional neural network은 주로 이미지 분석에 많이 활용되지만, 간간히 주가를 예측하기 위해도 활용되는 것 같습니다. Research paper들을 참조하여 모델을 구성한 것은 아니고, CNN을 활용해보는 정도에 의의를 두고자 합니다. 향후 시간을 내서 paper들을 읽고 체계적으로 구성해보는 것도 좋을 것 같습니다. 이번에는 삼성전자 대신, SKT주가를 활용하고자 합니다. 좀 더 긴 기간의 가격 정보를 활용하고자 하는데, 삼성전자의 경우 액면분할이 이루어진지 꽤 최근이라고 볼 수 있기 때문에 긴 기간의 주가를 활용하기는 부적절하다고 판단했습니다..
2020.07.30 -
SVM(서포트 벡터 머신)을 활용한 주가 방향 예측
이번 포스팅에서는 SVM을 활용하여 주가의 방향을 예측해보도록 하겠습니다. 추가적으로, 삼성전자 주가를 예측하기 위해 삼성전자 주가 정보만 이용하는 것이 아니라 KOSPI 지수 정보도 함께 활용하여 주가의 방향을 예측해보겠습니다. 이번 포스팅에서 활용하는 변수는 아래의 자료를 참조하여 만들었습니다. 아래 자료에서 활용한 정보와 완전히 일치하진 않지만, 아이디어를 차용하여 단순 가격 데이터가 아니라 가격데이터를 활용하여 예측에 활용할 변수를 만들었습니다. Madge, Saahil, and Swati Bhatt. "Predicting stock price direction using support vector machines." Independent work report spring (2015).(https..
2020.07.28 -
랜덤 포레스트(Random Forest)를 활용한 주가 방향 예측
주가를 예측하는데 있어 시계열 분석 방법론이 활발히 적용되나, 의사결정나무, 랜덤 포레스트와 같은 Classification 모형도 주가 방향을 예측하는데 활용되고 있습니다. 이번에는 랜덤 포레스트 모형을 이용하여 주가가 오를지 안오를지 방향성에 대해 예측해 보겠습니다. 이번도 마찬가지로 아주 예측력이 뛰어난 모델을 만들다기 보다는 기본적인 모형을 활용하여 주가를 예측하는데 적용하는데 의의를 두고 있습니다. 코드에 들어가기 앞서 먼저 방향 예측에 대한 구현 아이디어를 먼저 정리해보도록 하겠습니다. 여기서는 앞선 7일치 정보를 이용하여 8일째에 주가가 전일보다 오를지 떨어질지 예측해보도록 하겠습니다. 먼저 필요한 Module을 Import하고 크롤링을 통해 수집했던 주가 데이터를 불러옵니다. import ..
2020.07.27 -
연속확률분포, 정규분포, 표준정규분포
우리가 셀 수 있는 확률변수들의 분포를 이산확률분포라고 불렀습니다. 이러한 이상확률분포 중에는 대표적으로 이항분포와 포아송 분포가 있었습니다. 이산확률분포와는 다르게, 정규분포는 0과 1사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속확률분포입니다. 정규분포는 연속적인 값을 가지는 확률변수의 분포를 나타내는데 가장 많이 적용되고 있는 분포입니다. 정규분포 외에도 데이터에 따라 더 적합한 분포들도 많이 제안되어 왔지만, 여전히 가장 강력하고 일상적으로 적용되고 있는 분포입니다. [연속활률분포] 본격적으로 정규분포에 대해서 알아보기 전에, 연속확률분포에 대해서 알아보겠습니다. 연속확률분포는 이산확률분포처럼 발생가능한 모든 값에 확률을 대응/나열하여 표현하기가 어렵습니다. 발생 가능한 값이 무한대..
2020.07.26