Python(81)
-
t 분포(t distribution)을 활용한 검정
우리는 표본의 크기가 충분히 큰 경우에는 중심극한정리에 의해 표본평균의 분포가 정규분포가 됨을 이용하여 모평균 μ에 대한 추정, 검정에 Z-검정을 활용하였습니다. [t-분포] t 분포를 활용한 검정방안은 표본의 크기가 충분하지 않고 모집단의 분산을 알기 어려울 때 적용하는 방안입니다. (우리는 앞선 포스팅에서 모집단의 표준편차를 모를때 표본의 표준편차를 적용하였습니다. 다만 이것은 표본의 크기가 부족하면 값의 차이가 있기 때문에, 표본의 크기가 작을때 t 분포를 적용합니다.) t 분포는 정규분포의 평균의 해석에 많이 활용되는 분포이며, 아래 그림과 같이 0을 중심으로 대칭이고 종모양을 하고 있습니다. 표준정규분포와 상당히 유사한 모습을 가지나, 양 꼬리부분에 상대적으로 많은 확률이 존재하여 두꺼운 꼬리를..
2020.08.17 -
가설검정 > 검정통계량과 기각역
우리는 앞선 포스팅(https://direction-f.tistory.com/28)에서 두 가지의 가설을 정의하였습니다. 하나는 우리가 주장하고자 하는 가설(대립가설, H1)이고, 다른 하나는 그 주장을 입증할 수 없을 때 주장을 무효화하면서 받아들여야 하는 가설(귀무가설, H0)입니다. 그렇다면 우리는 어떤 가설을 받아들여야 하는지 어떻게 결정할 수 있을까요? 이 때 활용하는 것이 검정통계량(Test statistic)입니다. [검정통계량] 다시 앞의 포스팅의 예를 들어보도록 하겠습니다. 우리는 아래와 같이 가설을 수립했습니다. 대립가설(H1) : 다이어트 프로그램은 초등학생들의 평균 몸무게를 줄였을 것이다(μ
2020.08.12 -
통계적 추론(구간 추정)
점 추정은 모집단의 특성을 나타내는 하나의 값을 추정하는 것이었습니다. 반면 구간 추정(Interval Estimation)은 추정량(Estimator)의 분포를 활용하여 모집단의 특성을 나타내는 값을 포함하리라고 생각되는 구간을 추정하는 것입니다. [구간 추정] 우리가 구간을 추정을 통해 모수 값(모집단의 특성을 나타내는 값)을 포함하는 구간을 추정하는데, 이 구간을 신뢰구간(Confidence Interval)이라고 부릅니다. 신뢰구간은 상한과 하한이 있고 (L,U)형태로 가지게 됩니다. 이 때 L이 -∞이고 U가 ∞라면 모수 값이 어떻게 되더라도 신뢰구간에 포함되게 될 것입니다. 따라서 우리는 상한과 하한값을 제한 할 필요가 있습니다. 이 필요로 인해서 우리가 흔히 들어본 95% 신뢰구간, 90% ..
2020.08.04 -
정규점수, 정규확률그림
우리가 표본을 추출하였을 때, 정규분포를 따른다고 가정이 맞는지 잘 못 됐는지 어떻게 판단 할 수 있을까요? 해당 가정을 쉽게 추정해 볼 수 있는 방법으로 정규점수그림 또는 정규확률그림이란 것이 있습니다. [정규점수] 정규점수라는 것은 표준정규분포(평균 0, 표준편차 1)에서의 이상적인 표본을 말합니다. 다시 말하면, 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어 주는 경계값(z값)을 의미합니다. 만약 우리가 표본이 있다고 가정한다면, 평균 근처에 값들의 빈도가 높아야 정규분포에 가깝다고 판단 할 수 있을 것입니다. 위에 그림을 보시면 초록색 줄 사이에 값들은 등확률입니다. 즉 줄 사이에 넓이들이 같습니다. 만약 우리가 9개의 표본을 가지고 있다면, 초록색 줄과 x축이 만나는 점(여기가 정규점수 입..
2020.07.30 -
SVM(서포트 벡터 머신)을 활용한 주가 방향 예측
이번 포스팅에서는 SVM을 활용하여 주가의 방향을 예측해보도록 하겠습니다. 추가적으로, 삼성전자 주가를 예측하기 위해 삼성전자 주가 정보만 이용하는 것이 아니라 KOSPI 지수 정보도 함께 활용하여 주가의 방향을 예측해보겠습니다. 이번 포스팅에서 활용하는 변수는 아래의 자료를 참조하여 만들었습니다. 아래 자료에서 활용한 정보와 완전히 일치하진 않지만, 아이디어를 차용하여 단순 가격 데이터가 아니라 가격데이터를 활용하여 예측에 활용할 변수를 만들었습니다. Madge, Saahil, and Swati Bhatt. "Predicting stock price direction using support vector machines." Independent work report spring (2015).(https..
2020.07.28 -
랜덤 포레스트(Random Forest)를 활용한 주가 방향 예측
주가를 예측하는데 있어 시계열 분석 방법론이 활발히 적용되나, 의사결정나무, 랜덤 포레스트와 같은 Classification 모형도 주가 방향을 예측하는데 활용되고 있습니다. 이번에는 랜덤 포레스트 모형을 이용하여 주가가 오를지 안오를지 방향성에 대해 예측해 보겠습니다. 이번도 마찬가지로 아주 예측력이 뛰어난 모델을 만들다기 보다는 기본적인 모형을 활용하여 주가를 예측하는데 적용하는데 의의를 두고 있습니다. 코드에 들어가기 앞서 먼저 방향 예측에 대한 구현 아이디어를 먼저 정리해보도록 하겠습니다. 여기서는 앞선 7일치 정보를 이용하여 8일째에 주가가 전일보다 오를지 떨어질지 예측해보도록 하겠습니다. 먼저 필요한 Module을 Import하고 크롤링을 통해 수집했던 주가 데이터를 불러옵니다. import ..
2020.07.27