데이터분석/Machine Learning

그림과 수식으로 배우는 통통 인공지능 개념정리

늘근이 2017. 11. 19. 21:38

그림과 수식으로 배우는 통통 인공지능. 타나구치 타다히로

 

집앞도서관에 책이 들어왔길래 일빠로 새책의 감동을 느꼈으나 오리가 모험을 떠나는 본문내용은 사실 오리가 떠나는지 뭐가 떠나는지 잘 모르겠고 무협지와같은 짜릿함은 없다..

다만, 실무적으로 언급되거나 짚어야할점들은 아래와같이 구성을 해놓았다.


-       프로토타입용의 기계 구성

o   360카메라 거울, 자세한경우는 CCD. 카메라가두대면 대상이되는물체에대한 3차원정보가능

스피커와 지향성마이크가 숨겨져있음.

 

-       A*알고리즘

o   최적탐색은 많은수의 경로탐색이 필요, 최고우선탐색은 속도는빠르나 잘못된 결과치를 낼 확률 존재.

-       게임이론, 내쉬균형, 죄수의딜레마, 제로섬게임 등 등장

-       동적계획

-       베이즈정리

o   사건 A 라는 정보를 얻기전에 P(A)정도로 나오지않을까라고 생각한 문제에 대해, 새로운 정보 B를 알고나서 확률의 P(A|B)가 되지않을까?

-       강화학습

o   마르코브 결정 프로세스

o   Q학습

-       베이즈 필터

-       입자 필터

-       몬테카를로 근사

-       SIR

-       K-means clustering

-       가우시안 혼합모형 : 클러스터의 크기를 자동 조정

o   kmeans는 크기가 가까운곳으로만 유도하는데, 사실 클러스터마다 크기가 다를수도있다. 이에따라 클러스터의 중심값을 수정하는게 아니라 E 단계에서의 확률적인 클러스터 할당 그리고 M 단계에서의 평균, 분산, 혼합률 파라미터를업데이트한다.

o   EM알고리즘 (최대우도추정)으로부터 가우시안 혼합모형 유도

o   Kmeans는 가우시안 혼합분포의 근사 혹은 분산이 0인 극단적인 경우다.

-       이외 혼합모형으로는 잠재 디리클레 할당

-       HMM(은닉 마르코프 모형) 연속적인 시계열 벡터에대해 가우시안혼합모형 확장

-       Kmeans나 가우시안혼합분포는 비계층적인 클러스터링

-       계층적클러스터

o   최단거리법, 그룹평균법, 중심법, 중앙값 법, 워드법. 이중 워드법의 밸런스가 잘 잡혀있음.

-       차원축소

o   벡터추출, 시각화, 데이터압축등 다양한 분야에서 쓴다.

o   주성분분석

o   독립성분분석 (ICA)

o   커널 주성분 분석 특징공간에서 저차원으로의 매핑이 선형함수라고가정. 곡면모양의 좋은 표현을 추출하기 위함

o   딥러닝

§  패턴인식을 위한 특징벡터 추출

§  자기부호화기, 은닉층에서 입력데이터의 정보를 갖는 특징벡터 얻음

o   인공신경망

§  시계열데이터는  RNN으로, BPTT(Backpropagation through time)이 쓰임

§  출력의 오차를 내부가중치의 기울기로 단계적으로 전파하는데, 수학적으로는 합성함수의 미분값을 알고리즘적으로 구하는 행태.

-       분류문제에 판별모형과 생성모형 두가지가 존재.

o   생성모형 : 분류대상이 되는 데이터가 어떤 확률모형으로부터 생성되는지

o   새롭게 관측된 데이터는 베이즈정리를 적용하여 확률모형을 뒤집어 잠재적 변수인 레이블이 양인지 음인지 추정.

o   판별모형의 대표 퍼셉트론이나 서포트 벡터 머신

o   생성모형의 대표 가우시안혼합모형, 은닉 마르코프 모형, 나이브베이즈

-       SVM

o   선형분류기인 퍼셉트론에 커널 방법을 적용

§  커널방법이란 입력 데이터를 고차원 공간에 사영, 고차원 공간을 명시적으로 고려하지 않고 분류나 차원축소회귀등을 수행

-       자연언어처리

o   형태소분석 (Morphological Analysis)

o   문법적 관계를 분석, 구문분석 (Syntactic Analysis)

o   단어의 의미와 단어 사이의 의미 관계를분석하여 문장구조의 모호성 해소 (Semantic Analysis)

o   단어 래티스

o   동적계획으로 최적경로 계산방법 비터비 알고리즘

o   n-gram 확률 : 단어에 대한 마르코프 프로세스로부터 문장을 생성하는 생성모형을 가정했을때, 단어열 여러개가 관측된 후 단어 뭐시기가 관측될 확률.

o   통계적 자연언어 처리.

o   Bag-of-words는 문서에 어떤 단어가 몇번 출현하였는가에 대한 정보만 사용

o   Tf-idf (term frequency, inverse document frequency)