분류 전체보기 850

텐서플로우 입문기 (4) - 딥러닝(CNN)을 통한 손글씨 인식.

컨볼루션 뉴럴 네트워크. 이름만해도 너무나도 멋있는 기법인데 사실은 이걸 이해하려고 위키피디아를 보고있으면 20시간을 봐도 이해하지 못 한 기억이 있다. 너무나도 처음부터 전문적인 내용을 파려고 했던듯. 근데, 이 작은 책은 이해하는데 20분도 채 걸리지 않게 해주었다. 일단, 그 무시무시한 컨볼루션 신경망을 한번 이미지검색해본다. 이렇게 보면 이해할수가 없다. 무언가 단계만 많이 보이는듯. 아무래도 컨볼루션(합성곱) 의 경우는 이미지 인식에서 굉장히 많은 기여를 하였고, 태생자체도 시각적 특징을 감지하는데 많이 쓰인다고 한다. 생각을 해보면 어떠한 이미지를 인식하는데 픽셀 하나하나 검사하면, 사실은 너무 지엽적일수 있다. 사실 우리는 좀더 큰 시야에서 특징을 잡고 사물을 인식하지 않나? 예를들어 눈이 ..

텐서플로우 입문기 (3) - 인공신경망을 이용해서 펜글씨 예측

MNIST데이터를 가지고, 실제 인공신경망을 돌려볼수 있다. 이 데이터는 아래와 같이 여러 숫자들을 손글씨로 쓴것들을 모아놓은 데이터인데, 5000개의 데이터가 존재하며 이는 모두 레이블링 되어있으므로 실제로 학습결과를 판단하기에 용이하다. 다만, 실제로 저런 손글씨중에는 우리가 알아보기 힘든 손글씨도 존재하긴 하다. 3의 첫번째 글자는 저게 3인지 8인지 구분하기가 상당히 어렵고, 8의 열네번째 경우도 8이라고 보기 힘든 글씨체나 다름이 없다. 기계한테 독심술까지 강요할수는 없다. 따라서 약 90퍼센트의 확률만 때려맞춰 줘도 평타는 치는 경우라고 할수 있겠다. 텐서플로우에서 제공하는 이러한 숫자필기 이미지들을 가지고 하면 되는데 이는 다음과 같이 간단한 코드로 가져오기가 가능하다. 이제 가져온 이미지를..

빅데이터로 일하는 기술

저자분은 테라데이터의 부사장님이신데 신기하게도 원자핵공학과를 졸업했지만, 미국에서 컴공으로 유학을 다녀오신 후, 계속해서 데이터로 커리어를 쌓으신 분이다. 책이 쓰여지기 시작한 년도는 2014년, 지금 그로부터 대략 2년이 지났다. 다만 지금도 대세는 바뀌지 않았다. 시장은 계속해서 하둡 / 스파크의 전문가를 찾고 있으며, 인공지능 시대에 도래하여 단순 통계용 데이터가 아닌 딥러닝등에서의 데이터의 중요성은 점점 늘어나고 있다. 이책은, 어떤 방식으로든 데이터를 다루는 사람 입장에서는 한번은 보아야 할 책으로 느껴졌다. 많은 프로젝트 경험으로 부터 나오는 조직운영 이라든지 여러가지 팁들은 조직입장에서 어떠한 형태로 조직을 만들고 이끌어나가며, 롤은 어떻게 가져가야하는지, 어떠한 기술스택이 있어야 하는지 명..

IT 서평 2016.12.18

소프트웨어 개발과 테스트

요즘 나라걱정, 미래걱정으로 멘탈이 왔다갔다 하느라 정신이 없는데, 금요일 저녁 집에서 침대에 누워 책을 보며 나름의 좋은 정보를 가져다준 책이다. 이런 기술서적에 왜 나도 위안을 느낄지는 모르겠지만 나도 누군가를 책임을 져야하는 위치가 된다는 것은 그만큼의 실력과 360도를 돌아가는 시야각을 가져야 함이라. 말도안되는 시끄럽게 변죽만 때리거나, 특정 필드를 왜 대용하는지만 열심히 외운다거나, 사람만 좋은 사람이 되고싶지는 않다. 이 책을 보며 느끼는게, IT는 많은 환경을 체험해보고 느끼는게 참 중요하고 계속해서 새로운것을 시도해보려는 태도가 사람을 많이 성장시킨다는 것이다. 어쨌든 여기서 나오는 기술들은 대기업에서도 어느정도 사용되고 있지만 전혀 그렇지 않은 부분도 많다. 이를 소개하는 저자분은 경험..

IT 서평 2016.12.16

텐서플로우 입문기(2)

K평균 알고리즘. 군집은 초기단계서부터 가까운 군집에 할당하는 방법으로 상당히 빠른 시간안에 계산된다고 한다. 위와같은 대충의 데이터를 만든 다음에, 한번 그룹화를 해볼수 있다. 전체적인 코드는 다음과 같다. 일단, 데이터는 일부러 두가지정도로 군집화된 데이터를 생성했다. 데이터프레임은 numpy보다 쓰기 편한 자료 구조이다. 이를 constant화를 하여 4개의 군집을 중심으로 랜덤하게 섞은 값을 중심값으로 정한다.

텐서플로우 입문기(1)

대한민국에 사는 사람들 머릿속에 몰아친 혁명은 바로 두가지였다. 바로 2016년말에 일어난 2백만 평화 병신항쟁 그리고 모든 패러디와 풍자를 낳았던 알파고의 등장. 전자는 다수의 사람들의 힘을 여실히 보여주었고, 후자는 대량의 데이터의 힘을 보여주었다. 어쨌든 IT블로그이니 알파고의 힘을 가능케한 구글의 오픈소스 머신러닝 라이브러리인 텐서플로우를 입문하는 기록을 남겨야겠다고 생각했다. 이용한 서적은 [텐서플로 첫걸음, 한빛미디어, 조르디토레스 지음, 박해선 옮김] 리눅스 터미널로 깔짝깔짝하니 그래프도 안튀어나오고 답답해 죽겠어서 다시한번 친구한테 받은 포맷도 안되는 2009년형 맥똥컴을 부팅. $ sudo easy_install pip $ sudo pip install --upgrade virtualen..