전체 글 850

LightGBM 주요 파라미터 정리

2018년을 풍미하고있는 lightGBM의 파라미터를 정리해보도록 한다.생각보다 한국 문서는 많이 없는데, 데이터 사이언스가 엄청 히트를 치는데도 불구하고 생각보다 이정도 까지 트렌드를 쫓아가면서 해보는 사람은 그다지 많이 없는듯하다.lightgbm 논문을 참고해보면, https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdfGOSS(Gradient-based One-Side Sampling)을 통해 데이터의 일부만으로 빠르게 정보이득을 계산하고 있고, EFM(Exclusive Feature Bundling)을 통해 Feature를 획기적으로 줄이므로써, 시대를 풍미했던 xgboost를 속..

boosting 계열 알고리즘 3대장 정확도 간단비교.

아래의 competition은 leak으로 난리가 났지만 그래도, 데이터분석에서 정말 간단하게 쓸수있는 boosting계열 3대장의 정확도를 측정해본다. 기록용으로 남긴다.https://www.kaggle.com/c/santander-value-prediction-challenge/kernels lightGBM1.427181.440431.438611.474681.37851 시간이 더 걸리며, 시대를 잠시 풍미했던 xgboost는 역시 답답하다. 이렇게 약간 끕이 떨어지는 동생 두명은 아래와 같다. catboost1.4803135851.5035140991.4832265521.5289372621.441017107 xgboost 1.434161.447071.442441.480291.4013 역시나, 시간이 제..

데이터분석 2018.07.28