데이터분석/Machine Learning 45

나이브 베이즈 이해하기.

나이브. Naive. 인터넷에서 가끔씩 날카롭다고 달리는 리플중에는 ' 참 나이브 하군요 ' 라는 문구를 종종 본다. 결국 순진하다는 말과 1:1로 동치되는 단어임에도 불구하고 왜이리 자주 쓰이는지는 나이브 라는 영단어가 주는 시크함과 화자가 나타내고 싶은 우위를 잘 나타내주는 단어임에 다름이 없기 때문일것이다. 그러니, 단어가 주는 시크함에 속지말자. 나이브 베이즈는 수학자 Bayes라는 사람으로 부터 유래된것으로, 그냥 고등학교 (혹은 중학교?) 때 배운 조건부 확률을 이용할때 (Bayes기법) 조건이 여러개 있으면 정확히 계산하기에 너무 시간이 기하급수적으로 늘기때문에 몇가지 가정을 포기하고 대충 계산(Naive)하는 방법을 말한다. 나이브 베이즈는 스팸분류기로 보통은 설명을 하는듯보이니 한번 따라..

R - 다차원척도법 (MDS)

MDS - Multi Dimension Scale다차원척도법이란, 변수가 두개 이상인 경우의 다변량해석중 하나로써 대상들 사이의 관계를 저차원 공간에 점으로 표현한다.당연하게도 유사한건 가깝게 표현하고, 다른건 멀리 배치한다.예를들어 비슷하게 생긴 놈들은 가깝게 이차원 그래프에 점으로 표현하고 다른게 새긴놈은 멀리 보이게 될것이다.> result dist()함수를 써서 나온 결과를isoMDS()함수에 다시 넣으면 된다.

각 머신러닝 알고리즘의 장단점.

발췌 - R을 활용한 기계학습, 브레트 란츠-전철욱 옮김 kNN단순하며 효율적, 분산추정 노노, 빠른훈련모델생성하지 않아 통찰력 노노, 메모리, 명목형 속성과 결측데이터 추가적 처리 필요 나이브 베이즈단순혀과적, 노이즈결측치 오케이, 수량에민감노속성독립가정, 결함가정에 의존, 수치속성많은데이터셋 노노, 덜 신뢰적 트리모든문제에 적합, 결측명목수치처리 가능학습, 가장 중요한 속성만, 수량상관없음, 효율높음다수의 레벨을 가진 속성쪽으로 구분하는 경향, 쉽게 과적합, 훈련데이터약간의변경 결과에 영향, 큰트리는 이해하기 어려움 회귀수치데이터모델 일반적인 접근, 거의모든데이터모델화, 속성과 결과간 견고성과 크기 추정데이터에 대한 강한 가정, 모델의 형태 명시, 결측치노, 범주형데이터 부가처리 신경망분류나 수치, ..

데이터 마이닝 분석 패키지 Weka 이용

설치 링크http://www.cs.waikato.ac.nz/ml/weka/downloading.html 와이까또(?) 교수님이 만든 깔끔한 데이터 분석 툴라이센스는 GNU라 응용하기는 어려울듯 하다. 다만 파이썬이나 R등을 이용해서 콘솔형식으로 데이터를 분석하는 것보다는 조금 더 그래픽적으로 편해서 쓸만하게 보인다. 자바 기반. Explorer - 특정 데이터 집합에 대해 다양한 알고리즘을 활용, 데이터를 분석 Experiomenter - 알고리즘 비교 환경KnowledgeFlow - Explorer와 다를건 없고, 드래그앤드롭 방식Simple CLI - 콘솔로 조작하는 메뉴. 파일실행Explorer - Open file.. 버튼으로 프로그램을 실행시킬 수 있다.기본적인 iris 데이터는 아래와같은 프로..