데이터분석 167

LightGBM 주요 파라미터 정리

2018년을 풍미하고있는 lightGBM의 파라미터를 정리해보도록 한다.생각보다 한국 문서는 많이 없는데, 데이터 사이언스가 엄청 히트를 치는데도 불구하고 생각보다 이정도 까지 트렌드를 쫓아가면서 해보는 사람은 그다지 많이 없는듯하다.lightgbm 논문을 참고해보면, https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdfGOSS(Gradient-based One-Side Sampling)을 통해 데이터의 일부만으로 빠르게 정보이득을 계산하고 있고, EFM(Exclusive Feature Bundling)을 통해 Feature를 획기적으로 줄이므로써, 시대를 풍미했던 xgboost를 속..

boosting 계열 알고리즘 3대장 정확도 간단비교.

아래의 competition은 leak으로 난리가 났지만 그래도, 데이터분석에서 정말 간단하게 쓸수있는 boosting계열 3대장의 정확도를 측정해본다. 기록용으로 남긴다.https://www.kaggle.com/c/santander-value-prediction-challenge/kernels lightGBM1.427181.440431.438611.474681.37851 시간이 더 걸리며, 시대를 잠시 풍미했던 xgboost는 역시 답답하다. 이렇게 약간 끕이 떨어지는 동생 두명은 아래와 같다. catboost1.4803135851.5035140991.4832265521.5289372621.441017107 xgboost 1.434161.447071.442441.480291.4013 역시나, 시간이 제..

데이터분석 2018.07.28

kalman script

잡음까지 포함된 입력 데이터를 재귀적으로 처리하는 필터Kalman filtering, also known as linear quadratic estimation (LQE), is an algorithm that uses a series of measurements observed over time, containing statistical noise and other inaccuracies, and produces estimates of unknown variables that tend to be more accurate than those based on a single measurement alone, by estimating a joint probability distribution over the..

모든이들을 위한 Facebook Prophet Paper 쉬운 요약정리

이글에서 분석해볼 paper는 [Forecasting at Scale] 으로, Facebook의 신기방기한 시계열 분석 라이브러리인 Prophet에 대한 설명이 있는 paper입니다. 논문으로는 20페이지가 넘어 읽기가 불편(?)할수 있어 제가 대신 읽어보겠습니다. peer-reviewed가 되어있지 않다고 되어있지만, 현실에서 미치는 라이브러리의 현재 파급력으로 보아 충분히 볼만한 가치가 있어보입니다. 저작권을 살펴보니 냅다 사용해도 괜찮네요.이를 살펴보게 된 이유는, KDD2018 미세먼지 예측에서 상위권에 포진한 랭커가 날씨 예보정보를 전혀 쓰지않고 과거정보만으로 냅다 미세먼지 예측량을 맞추게 되는 방법중 하나가 바로 이 Prophet library이기 때문이였기 때문입니다. 이 글에서 대부분의 내..