데이터분석/Machine Learning

각 머신러닝 알고리즘의 장단점.

늘근이 2017. 4. 25. 06:56

발췌 - R을 활용한 기계학습, 브레트 란츠-전철욱 옮김


kNN

단순하며 효율적, 분산추정 노노, 빠른훈련

모델생성하지 않아 통찰력 노노, 메모리, 명목형 속성과 결측데이터 추가적 처리 필요


나이브 베이즈

단순혀과적, 노이즈결측치 오케이, 수량에민감노

속성독립가정, 결함가정에 의존, 수치속성많은데이터셋 노노, 덜 신뢰적


트리

모든문제에 적합, 결측명목수치처리 가능학습, 가장 중요한 속성만, 수량상관없음, 효율높음

다수의 레벨을 가진 속성쪽으로 구분하는 경향, 쉽게 과적합, 훈련데이터약간의변경 결과에 영향, 큰트리는 이해하기 어려움


회귀

수치데이터모델 일반적인 접근, 거의모든데이터모델화, 속성과 결과간 견고성과 크기 추정

데이터에 대한 강한 가정, 모델의 형태 명시, 결측치노, 범주형데이터 부가처리


신경망

분류나 수치, 정확한 모델링, 몇개의 가정

망이복잡시 느림, 과소적합, 과적합, 블랙박스


SVM

범주나 수치예측문제 사용, 노이즈데이터에 영향노, 사용하기쉬움, 높은정확도

커널과 모델에서 매개변수 여러가지 조합테스트, 예제개수와 속성이 많으면 훈련느림, 블랙박스


연관규칙

대량의 거래데이터, 쉽게이해가능, 예상하지못한지식발굴

작은데이터셋노, 상식과통찰력 구별해야함, 거짓된 결과 꺼낼수있음


k평균

군집식별에 간단한 원리, 매우유연, 

무작위 초기화 때문에 최적발견 노가능, 합리적 추측필요