데이터분석/기초통계 15

LightGBM 주요 파라미터 정리

2018년을 풍미하고있는 lightGBM의 파라미터를 정리해보도록 한다.생각보다 한국 문서는 많이 없는데, 데이터 사이언스가 엄청 히트를 치는데도 불구하고 생각보다 이정도 까지 트렌드를 쫓아가면서 해보는 사람은 그다지 많이 없는듯하다.lightgbm 논문을 참고해보면, https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdfGOSS(Gradient-based One-Side Sampling)을 통해 데이터의 일부만으로 빠르게 정보이득을 계산하고 있고, EFM(Exclusive Feature Bundling)을 통해 Feature를 획기적으로 줄이므로써, 시대를 풍미했던 xgboost를 속..

카이스퀘어 동질성 / 독립성 검증 정리

동질성 검증: '변인의 분포가 이항분포나 정규분포와 동일하다'라는 가설을 설정한다. 이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다.독립성 검증: 변인이 두 개 이상일 때 사용되며, 기대빈도는 '두 변인이 서로 상관이 없고 독립적'이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힌다. p-value가 정해진 수준 0.1 이나 0.05보다 작으면 제대로된 랜덤 샘플링이 아닌 특이값이라는 것인데, 위의 경우는 p-value가 기각하지 못하므로, 해당 모집단에서 나왔다는 귀무가설을 기각하지 못한다.

왜 불편분산에서 n이 아닌 n-1 로나누는가?

일단, 분편분산의 기대값은 시그마제곱이며, 불편분산은 한 표본안에 들어있는 분산을 계산한건데, 이와중에 이상하게 n이 아닌 n-1로 푼다. 만약 n으로 계산한다면 표본분산과 미묘한 차이가 있게 된다. n-1 / n만큼의.. 왜 그런지 수학적으로 정리를 해놓은 강좌가 밑에 링크에 있다.밑의 날림글씨를 보지말고 해당 강좌에 들어가서 따봉 해주고 보면된다. 고등학생은 꼭보라고 하는데 고등학생만 꼭 보라는것 같아 직장인이 되서 보려니 좀 쑥쓰럽다.결국 n이 아니라 n-1로 나눠야 딱 모분산과 분편분산의 기대값이 일치하게 된다. 이 n-1을 자유롭게 둥둥 떠다니는 놈이라고 해서 자유도라고 부르고, 좀더 추상적으로 이해해 보자면 어차피 표본 분산을 구할때의 X1 - Xbar ... 에 해당되는 부분을 다 더한값은 ..

cronbach's alpha

크론바흐의 알파로 설문의 신뢰도를 측정할수 있다. 예를들어 어떠한 설문을 할때, 1. 당신은 불을 좋아하는가?2. 당신은 불을 보고 흥분하는가?3. 몰래 불을 지르고 싶은 마음이 든다. 4. 나는 소중하다. 와 같은 문항을 실제로(!) 굉장히 자주 맞닥뜨릴때가 있는데 사실 1,2,3문항은 비슷하고 4문항은 성격이 좀 다르다. 하지만 출제자의 원래 의도는 모두가 같은것을 테스트하려고 (이기주의) 내었다면, 이에대한 항목들의 일관성을 측정해볼수 있다.크론바흐어어워우워~ 알파값을 통해 한번 살펴본다. k는 현재 설문 몇개인지k는 항목갯수 c바는 모든 공분산들의 평균v바는 모든 항목의 평균 분산 라고 볼수 있는데, 얘가 1에 가깝게 나온다는것은 참으로 관련이 있다는것이고얘가 0에 가깝게 나온다는것은 그냥 항목들..

자연상수 e의 성질

e = 2.7182818...아마 베르누이는 은행에 어떻게하면 돈을 더 많이 굴릴수있을까.. 이자를 육개월에 한번빼서 다시 넣을까라는 우리네 소시민적인 생각을 하다가 응? 그러면 초당 뺐다넣었다 하면 어케되지? 라는 생각을 했을수도 있겠다.. 하지만 뭐든지 했으면 어떻게든 생색은 내야하는법. 뇌내망상을 거듭하다가 나중에 오일러가 e로 자연상수의 이름을 박아버리자 세상사람들은 그렇게 하옵겠나이다 하고 그렇게 되었다고 한다...

R 독립2표본평균검정, 대응표본평균검정, 이표본분산, 일표본비율, 이표본비율, 상관계수검정, 독립성 검정

독립2표본평균검정완전 다른 집단에대해 (남자나 여자) 평균차이가 있는지 검증하는 방법은독립 표본 평균검정 (독립되어있으므로)> t.test(extra~group, data=sleep, paired=F, var.equal=T)이러한 식으로 비교를 한다. 즉, paired를 False로 두면, 아예 다른 독립된 표본을 검정한다는 뜻. 대응표본평균검정이와 반대로, paired=T로 두면, 동일한 집단간에 나온 두 결과 (기말고사와 중간고사처럼) 를 비교하면 된다.> t.test(extra~group, data=sleep, paried=T, var.equal=T) 결과적으로 P-value 가 0.05미만으로 떨어지면, 차이가 있다고 봐도 무방하다는 뜻으로 알아듣는다. 이표본분산> var.test(iris$Sep..

최소자승법 (Least Square Solution)

데이터와 오차간의 합을 최소화하도록 모델의 파라미터를 구하는 방법.즉 어떤 모델을 가지고 데이터들을 추론하더라도 딱 그 방정식의 직선 위에 그 값들은 존재하지 않고 어느정도 오차를 가지고 떨어져있게 마련인데 이를 최소화하는것이 바로 최소자승법(Least Square Solution) 이다.위와같은 식으로 구한 X가 잔차제곱의 합을 최소로 하는 모델 파라미터다만, 몇개의 아웃라이어가 껴있으면 RANSAC등을 이용하여야한다.