데이터분석/Machine Learning 45

TPU 구글에서 사용

https://console.cloud.google.com/storage/browser/ Google Cloud Platform 하나의 계정으로 모든 Google 서비스를 Google Cloud Platform을 사용하려면 로그인하세요. accounts.google.com 1.) 필요한 파일을 버켓에 올린다. 2) Computing Machine 을 올린다. 3) 그리고 ssh를 틀어서 해당프로젝트를 들어가서, gsutil cp gs://XXX/train.csv train.csv 로 복사를 하면된다. XLNET으로 한번 트레인을 해보고자 했는데, 일단 XLNET에서 공개한 github에서 https://github.com/zihangdai/xlnet 다운로드를 한 후, 여기서 실제로 kaggle toxi..

gensim word2vec simple usage

from gensim.models import word2vec token = [['나는','너를', '사랑해'],['나도','너를','사랑해']] embedding = word2vec.Word2Vec(token, size=5, window=1, negative=3, min_count=1) embedding.save('model') #모델 저장embedding.wv.save_word2vec_format('my.embedding', binary=False) #모델 저장 embedding.wv['너를'] embedding.most_similar('너를') from gensim.models.keyedvectors import KeyedVectorsembedding.wv.save_word2vec_format('m..

모든이들을 위한 Facebook Prophet Paper 쉬운 요약정리

이글에서 분석해볼 paper는 [Forecasting at Scale] 으로, Facebook의 신기방기한 시계열 분석 라이브러리인 Prophet에 대한 설명이 있는 paper입니다. 논문으로는 20페이지가 넘어 읽기가 불편(?)할수 있어 제가 대신 읽어보겠습니다. peer-reviewed가 되어있지 않다고 되어있지만, 현실에서 미치는 라이브러리의 현재 파급력으로 보아 충분히 볼만한 가치가 있어보입니다. 저작권을 살펴보니 냅다 사용해도 괜찮네요.이를 살펴보게 된 이유는, KDD2018 미세먼지 예측에서 상위권에 포진한 랭커가 날씨 예보정보를 전혀 쓰지않고 과거정보만으로 냅다 미세먼지 예측량을 맞추게 되는 방법중 하나가 바로 이 Prophet library이기 때문이였기 때문입니다. 이 글에서 대부분의 내..

회귀 결정트리의 불순도 측정과 값 해석

걍 나중 기억회복용결정트리, 결정나무, 디시전트리, 디시전나무(?) 참으로 많은 이름으로 불리지만, 보통은 분류 문제만 소개하고 있지 회귀방식에 대한 깊은 이해가 되어있는 글은 없어서 이해차원차 일단 끄적거린다. 회귀는 사실 어떻게 보면 그냥 선형성이 보인다면 회귀를 돌리는게 맞아보이고, 결정트리의 경우 예측값이 연속적으로 나오는게 아니라 띄엄띄엄 우둘투둘(jagged) 존재하기 때문에 처음으로 고민하는 모델은 아닌듯하다.그러나, 해석력이 꼭 필요한 실무의 경우인데, 예를들어 미세먼지를 측정하는데 있어 바람의 세기와 풍향의 각도등이 들어온다면 선형적으로 구분할수 없는 문제가 되어버린다. 미세먼지 크기 = 풍향의 각도 * 100 + if동남풍이면??바람의 방향에 따라 바뀌어야 되는 조건이 다르다면 미세먼지..

스택힝

어느날 데이터사이언티스트라는 직업이 21세기 제일 섹시한(?)직업이라고 뜨고 모두가 머신러닝이라는것을 관심가지게 되었다.Kaggle이라는 데이터 분석 대회의 성지에서는 모두가 몰려들게 되었다.그리고 누구나 R로 lm() 함수를 통해서 중간은 가는 베이스라인 모델을 5초만에 만들게 되었다. 그러자 이제는 0.01 퍼센트를 쥐어짜기 위한 대단한 사람들이 등장했다.처음에는 bagging이라는 기법으로 여러가지 모델을 잘 섞어서 쓰는 방법이 쓰였다.앙상블이라는 무슨 아이스크림같은 이름도 있었다.이제는 모델을 다시 섞는 방법이 태어났다.그리고 그 모델을 다시 섞었다. 모든사람이 맞대면 성능은 올라가기 마련. 해석은 일단 뒷전이고 모두가 팀을 이뤄서 모델을 섞기 시작한다.그러자 모델을 어떻게 섞어야 또 성능이 나오..

그림과 수식으로 배우는 통통 인공지능 개념정리

그림과 수식으로 배우는 통통 인공지능. 타나구치 타다히로 집앞도서관에 책이 들어왔길래 일빠로 새책의 감동을 느꼈으나 오리가 모험을 떠나는 본문내용은 사실 오리가 떠나는지 뭐가 떠나는지 잘 모르겠고 무협지와같은 짜릿함은 없다..다만, 실무적으로 언급되거나 짚어야할점들은 아래와같이 구성을 해놓았다. - 프로토타입용의 기계 구성o 360카메라 거울, 자세한경우는 CCD. 카메라가두대면 대상이되는물체에대한 3차원정보가능스피커와 지향성마이크가 숨겨져있음. - A*알고리즘 o 최적탐색은 많은수의 경로탐색이 필요, 최고우선탐색은 속도는빠르나 잘못된 결과치를 낼 확률 존재. - 게임이론, 내쉬균형, 죄수의딜레마, 제로섬게임 등 등장- 동적계획- 베이즈정리 o 사건 A 라는 정보를 얻기전에 P(A)정도로 나오지않을까라고..

성능평가시 써먹을수 있는 함수

실제 범주 값, 예측된 범주 값, 예측에 대한 추정된 확률. TP (True Positivie) - 정확하게 관심범주를 분류 TN (True Negative) - 정확하게 관심범주가 아닌것을 분류 FP (False Positive) - 관심범주로 잘못 분류 FN (False Negative) - 관심범주가 아닌것으로 잘못 분류 이 위에 것들은 솔직히 헷갈리는데, True라는것이 항상 제대로 분류했다는 의미로 트루트루를 한번 복창하면 될듯하다. gmodels 패키지에 속하는 CrossTable은 기본적인 table() 함수보다 제공되는 것들이 많다. 혹은 caret 패키지 (Classification And REgression Training) 에서 confusionMatrix() 메서드가 있다. 한국말로..

비계층적 군집화과 k평균

덴드로그램으로 사용하던 계층적 군집방법 말고, 비계층적 군집방법은 다음과 같다. k-means clustering Expectation-Maximization Density-based clustering Fuzzy clustering 이 중, 제일 유명한것은 k-means clustering. 일단 분석대상인 데이터가 뭉텅이로 있다고 치자. 데이터의 양상을 좀 보려면 크게크게 나눠서 패턴이 어떻게 되는지 보는게 좋아보인다. 다만 비지도 학습이기 때문에 데이터에 대한 어느정도 합리적인 추측이 필요한데, 몇개의 군집으로 나누면 좋을것인지에 대한 판단은 들어가야되기 때문. 즉, 군집이 몇개 나눠져야 하는지를 사전에 정해야 하는데, 나누고 싶은 계층이 부자 / 중산층 / 서민 과같이 대략적으로 목적이 있으면 그..