데이터분석/Machine Learning 45

R을 이용한 ARIMA(Autoregressive integrated moving average) 분석 예

ARIMA 모델 (Autoregressive integrated moving average) ARIMA (p,d,q) 에서 AR - p MA - q I - 차분 횟수 변태는 아니지만, 연도에 따른 여자들 치마길이 분석을 ARIMA(Autoregressive integrated moving average)를 해본다. > skirts sts1 sts2 acf(sts2, lag.max=20) arima 자동 > auto.arima(skirts) Series: skirts ARIMA(1,2,0) Coefficients: ar1 -0.2997 s.e. 0.1424 sigma^2 estimated as 388.7: log likelihood=-193.66 AIC=391.33 AICc=391.62 BIC=394.9 ..

R을 이용한 시계열분석 함수 이용 예

> kings kingsts kingsts Time Series: Start = 1 End = 42 Frequency = 1 [1] 60 43 67 50 56 42 50 65 68 43 65 34 47 34 49 41 13 35 53 56 16 43 69 59 48 59 86 55 68 51 33 49 67 77 81 67 71 81 68 70 [41] 77 56 > births birthts souvenir plot.ts(kingsts) lot() 함수를 취해서 plot할수도 있다. 평탄화 (TTR패키지 SMA 함수) > SMA(kingsts, n=3) 시계열 요소 죄다 decompose > result result plot()을 그리면 예쁘다.

R을 이용한 회귀분석 함수 이용 예

> set.seed(2) > x = runif(10,0,11) 0~11 까지 랜덤하게 10개를 뽑는다. > y = runif(10,11,20) > d = data.frame(x,y) > d x y 1 2.033705 15.97407 2 7.726114 13.15005 3 6.306590 17.84462 4 1.848571 12.62738 5 10.382233 14.64754 6 10.378225 18.68194 7 1.420749 19.78759 8 9.167937 13.03243 9 5.148204 15.00328 10 6.049821 11.67481 > result = lm(y~x, data=d)> result Call: lm(formula = y ~ x, data = d) Coefficients: ..

TF-IDF(Term Frequency - Inverse Document Frequency)

어떤 단어가 특정문서에서 얼마나 중요한 위치를 차지하는 지 나타내는 알고리즘이다. Term (특정한 단어) 가 문서에서 자주 나타나면 이건 좋은거다. 예를들어 '탈모' 라는 단어가 자주 등장한다면 이건 점수를 많이 많이 줄수있다. 다만, Document의 맥락상 '탈모'라는 단어가 계속 등장한다면 이건 전체가 탈모에 대해 이야기하고 있기 때문에 다른 단어가 점수를 얻을 확률이 많아진다. 따라서 TF * ( 1 / DF ) 와 같은 식으로 해당 단어에 대한 무게감을 측정할수 있다.

정리해야할것 + 참고할만한 책

각 용어당 모르는 부분 하나로 모으기프로젝트 완성도 및 진행도 나이브 베이즈 분류기TF-IDF 분류기P/R 곡선 (AUC)리드스톤라플라스 평활화NLTK라소 리지 일래스틱넷 (L1벌점화 모델, L2벌점화모델, 합친거)OLS회귀(ordinary least squares)널모델KFold앙상블 학습PCA (Principal Component Analysis)LDA (Linear Discriminant Analysis)MDS (Multidimensional Scaling) 참고할만한 책실용서 : Building Machine Learning Systems with Python.기본서 : Pattern Recognition and Machine Learning이론서 : Machine Learning : A Prob..

Scikit-learn Knn사용법 / 정규화 및 기능 정리

데이터에 대한 교차검증 KNNclassifier.fit(매개변수) classifier.predict(features[test])를 이용하면 쉽게 Knn을 구현할수 있다. Knn은 최근접 이웃분류로써, 훈련데이터에서 가장 가까운 예제를 사려보고 그 라벨을 반환한다. from sklearn.neighbors import KNeighborsClassifierfrom sklearn.cross_validation import KFold classifier = KNeighborsClassifier(n_neighbors = 1) # 데이터에 대한 교차검증 kf = KFold(len(features), n_folds=5, shuffle=True) means = []for train, test in kf :classif..