데이터분석 167

일반인을 위한 머신러닝 (3) - Cost Function 비용함수

이제예측된 추론결과가 얼마나 파워풀한지를 따져봐야한다. 전에 보았던 지도학습에서 나이와 섹시함에 대한 선형함수를 그렸던 것이 기억나는가? 물론 나이를 먹을수록 섹시함이 늘어난다는 가정은 별로 상식에 벗어나 있지만, 어쩌다 보니 위와같은 직선의 함수가 나왔다고 치자. 그렇다면, 이 직선의 함수가 얼마나 효용성이 있는가는 각 데이터가 표시하고 있는 곳에서 얼마나 멀리 떨어져있는지 거리를 측정한 후 그것을 적당히 합해서 평균친 결과일 것이다. 여기서 바로 다음과 같은 Cost Function의 공식이 나온다.Hypothesis 의 식은, 바로 위의 추론식을 나타낸다. 기본적인 y절편값이 있고 선형적으로 증가한다.결국 Cost Function이란, 위와같은 그래프에서 얼마나 점들이 추론식에 가까이 붙어있는가 (..

실제 이미지로 Scikit-image 적용해보기

이제 샘플데이터가 아닌 실제 이미지를 가지고 여러가지를 해본다. Scikit-Image는 프로그래밍적으로 여러가지 포토샵 비스무리한 필터를 적용할수 있는지라 이미지를 다루는데 있어 꽤나 쓸모있게 쓰일수 있는 것처럼 보이지만, 사실은 기본적인 필터를 사용할수 있는 정도이며, 머신러닝 등을 적용하려면 Scikit-learn을 붙여서 쓰거나 기타 다른 라이브러리를 통해서 개발을 진행하여야 하는것으로 보인다. 일단 다음과 같은 쉬운 명령어로 쉽게 대상이 되는 데이터를 지정할수 있다. 대상이 되는 이미지는 다음과 같다. 내가받은 생일선물 중에서 제일 쓸모없다고 느꼈었는데, 그래도 이렇게 쓸모가 있다니.. import os from skimage import io filename = os.path.join('c:\..

일반인을 위한 머신러닝 (2) - 지도/비지도학습

컴퓨터가 아무리 알아서 한다 치더라도 뭔가 공부를 하라고 누군가가 말해줘야 한다. 학창시절을 떠올려보자. 누군가 공부라고 하기 전까지는 절대 공부하지 않았다. (물론 저는 예외에요.) 그런데 컴퓨터에게 공부하라고 하는 명령을 내려야 하기는 하는데 어떻게 내려야 할까? 뭔가를 초기조건으로 불을 붙여줘야 얘가 혼자 타올라서 열심히 공부하든 아니면 마지못해 눈높이 수학이라도 풀든 하지 않겠는가. 이러한 것들에 대해 머신러닝은 두가지 방법이 있다. 지도학습(Supervised)과 비지도(Unsupervised) 학습니다. 지도학습은 컴퓨터에게 '이게 맞는 답이야~ 알았지? 이제 이거랑 비슷한걸 판단해서 맞는걸 찍어보도록해' 라고 말하는것을 뜻한다. 이러한 지도학습에는 예측과 분류가 있는데, 1) 예측은 일종의 ..

일반인을 위한 머신러닝 (1) - 참고자료

앞으로 쓸 포스팅은 Coursera 설립자인 Andrew Ng(응가 아니고 응) 선생님의 강의를 바탕으로 요약식으로 재구성한것으로, Coursera나 Itunes에서 공짜로 냅다 들을수 있다. 포스팅은 간단한 데이터 분류에서부터 기계학습, 이미지 프로세싱, 영상처리까지 구성할 예정이며 나중에 자료를 집대성해서 일반인들이 쉽게 이해할수 있는 자료집을 만들어도 좋겠다는 생각이다. 머신러닝이라함은 사실은 그냥 들을때는 굉장히 멋있어 보이고 어려워보이기만 한다. 그렇지만 막상 까보면 이전에 있었던 개념이며 이러한 개념들이 현재 이슈되고있는 빅데이터 등의 개념과 합쳐져서 대두가 되고있는 느낌이다. 머신러닝은 결국에는 데이터를 다루는것에 대한 하나의 이론이며 이의 패턴을 찾아 예측하는 방법론이라고 할수 있을것이다...

scikit - Image 튜토리얼 (1)

이미지 프로세싱으로 도대체 무엇을 할것인가? 이미지는 사실 숫자이다. 픽셀 하나하나마다 숫자정보가 들어있고, 이를 화면에 뿌려주면 색깔로 표현이 된다. 결국 이미지를 분석하는 일은, 숫자를 분석하는 일이며 데이터를 분석하는 일이다. Matplotlib은 굉장히 비싸고, 무겁고, 범용적이지 않은데, 파이썬은 여러 학술적인 기능들을 품었고 이는 오픈소스 프로젝트를 통해 발전해 나가고 있기 때문에 사실 라이센스 때문에 꺼려진다면 무조건 이를 쓰는것이 옳다. Scikit-Image는 소프트웨어를 사용하는데 거의 제약이 없는 BSD라이센스다. 흥미를 돕기위해, 아래와 같은 샘플 동전 분석 코드를 심어놨는데, 한번 그대로 따라 쳐보도록 한다. 아나콘다를 깔면 알아서 필요한 패키지들이 깔리니, 이 부분은 뒤어넘는다...