데이터분석/Machine Learning

스택힝

늘근이 2018. 4. 9. 20:56

어느날 데이터사이언티스트라는 직업이 21세기 제일 섹시한(?)직업이라고 뜨고 모두가 머신러닝이라는것을 관심가지게 되었다.

Kaggle이라는 데이터 분석 대회의 성지에서는 모두가 몰려들게 되었다.

그리고 누구나 R로 lm() 함수를 통해서 중간은 가는 베이스라인 모델을 5초만에 만들게 되었다. 

그러자 이제는 0.01 퍼센트를 쥐어짜기 위한 대단한 사람들이 등장했다.

처음에는 bagging이라는 기법으로 여러가지 모델을 잘 섞어서 쓰는 방법이 쓰였다.

앙상블이라는 무슨 아이스크림같은 이름도 있었다.

이제는 모델을 다시 섞는 방법이 태어났다.

그리고 그 모델을 다시 섞었다. 

모든사람이 맞대면 성능은 올라가기 마련. 해석은 일단 뒷전이고 모두가 팀을 이뤄서 모델을 섞기 시작한다.

그러자 모델을 어떻게 섞어야 또 성능이 나오는가가 대두된다. 그냥 섞고 평균칠것인가?

스택힝(Stacking) 은 이 섞는 모델을 또 어떻게 섞을지를 로지스틱 회귀를 돌려 다시한번 정한다.

하지만 이런 모델은 실무에서 쓰잘데기가 없는것으로 보인다.

넷플릭스는 이렇게 쥐어짜낸 모델을 예측모델에 쓸수가 없었다. 대단한 사람들에게 숟가락을 얹고 싶었지만 안의 내용물은 전혀 알수가없는 몇차원 복잡한 모델링을 해왔기 때문이다.

보통의 데이터 컴페티션은 이렇게 이뤄지는것으로 보인다. 

아직은 고지가 멀지만, 고지에 다다르면 이게뭔가 싶듯이, 왠지 결국에는 그럴것같다.