IT 서평

빅데이터로 일하는 기술

늘근이 2016. 12. 18. 11:28

저자분은 테라데이터의 부사장님이신데 신기하게도 원자핵공학과를 졸업했지만, 미국에서 컴공으로 유학을 다녀오신 후, 계속해서 데이터로 커리어를 쌓으신 분이다.


책이 쓰여지기 시작한 년도는 2014년, 지금 그로부터 대략 2년이 지났다. 다만 지금도 대세는 바뀌지 않았다. 시장은 계속해서 하둡 / 스파크의 전문가를 찾고 있으며, 인공지능 시대에 도래하여 단순 통계용 데이터가 아닌 딥러닝등에서의 데이터의 중요성은 점점 늘어나고 있다.


이책은, 어떤 방식으로든 데이터를 다루는 사람 입장에서는 한번은 보아야 할 책으로 느껴졌다. 많은 프로젝트 경험으로 부터 나오는 조직운영 이라든지 여러가지 팁들은 조직입장에서 어떠한 형태로 조직을 만들고 이끌어나가며, 롤은 어떻게 가져가야하는지, 어떠한 기술스택이 있어야 하는지 명확하게 설명해준다. 데이터를 다루고싶은 초년생 입장에서는 경험하기가 힘든부분이지만, 이를 간접체험할수 있도록 도와준다. 


실제로 우리나라 최대의 기업 기업데이터를 운영하는 부서에서 새로운 BI Tool 도입을 맡아서 해본적이 있지만, 실무자들은 하둡이나 스파크, 혹은 시각화 툴에대한 인지가 굉장히 낮은편이며 기업솔루션의 강자였던 SAP이라는 벤더사에만 치중해 매너리즘에 빠져있는것도 사실이다. IT와 현업간의 롤 또한 그렇게 정확하지 않다. 끌어주는 사람이나 큰 그림을 그릴수 있는 사람 없이 중구난방인 조직상황에서 많은 기여를 하지 못해서 많이 답답해 했는데, 이 책을 통해 조직의 문제가 어땠는지, 데이터를 다루는 사람들의 역할은 어때야 하는지, IT가 가져야할 기술이 어떻게 되는지 조금더 명확해진 편이다. 


아래는 책을 읽으면서 몇가지 와닿는 부분이다. 


기업 경영진은 빅데이터를 너무 쉽게 생각하는 경향이 있으며, 본인들의 영향력을 간과한다. 빅데이터 TF리더는 경영기획본부, 경영혁신본부 등이 되어야한다.

 

- 빅데이터는 데이터수집, 적재, 보안처리, 조회, 시각화 단계를 거친다. 빅데이터 90%이상은 데이터 핸드링, 즉 필요한 데이터를 적재하고, 데이터를 검증한 후 필요한 데이터를 만들고 분석하는 어려운 작업을 거쳐야 하며 매우 많은 시간을 투자해야한다.


빅데이터는 데이터를 왕창 때려붓고 뭔가 자동적으로 데이터 결과물이 뿅 튀어나오는게 아니라, 그에 수반한 많은 실무적 노력들이 필요하다는 것이다. 연습용으로 내부장비를 활용해 차근차근 (1~2년) 교육을 하고, 이를 통해 시야가 넓어졌을때 계속해서 투자를 하는것이 필요하다고 한다. 

다만 경험상 경직적이고 늪에 빠진 조직은 이러한 장비조차 내부에서 사용하도록 별로 허용을 해놓지는 않아보인다. 또한 교육등도 여의치 않은 상태일수 있다. IT부서로써 데이터를 다룬다면 하둡과 스파크등의 활용은 무조건 외부 전문가로부터 교육이 필요하다. 보통은 자기생활에 바빠 혼자서 리눅스 환경 구축해서 돌려보는 사람은 거의 없다. 


IT자체는 변화무쌍하지만 IT하는 사람들은 그다지 변화에 익숙하지 않다. 지금까지 하는것도 수년간 배웠고 배우는 과정도 쉽지는 않았기 때문이다. 역설적이지만 가장먼저 트렌드를 따라가야할 IT조직에 있는 사람들이 보수적이라는 말을 더 많이 듣는 이유이다. 

하둡, NoSQL, SQL on Hadoop, Spark, CEp 같은 프로그램을 배운다는 것은 지금까지 하던 SQL, RDB, OLAP, Java 등을 배우는 것과는 매우 다르다. 기본 사상과 개념이 다르기 때문에 문화적 충격이 존재한다. 

이를 최소화하고 새로운 기술로 마이그레이션 하는 것이 매우 중요하다. 소수의 하둡 전문가가 기존 BI담당자들에게 하둡을 가르치는 것이 필요하다. 


맞는 말이다. 특히나 대형 데이터를 다루는 부서의 운영직원들은 상당히 폐쇄적인 조직에서 수년이상 근무한 사람들이 대부분이다. 처음 입사를 한 신입직원은, 오히려 문화적 충격에 빠진다. 바깥세상은 인공지능이다, 빅데이터다 엄청나게 빠른페이스로 바뀌고 있고 이는 업무와 관련이 없는것도 아닌데 안쪽에서는 2MB의 엑셀파일이 업로드가 되니 마니를 반복하고 있으며 이러한 시간이 굉장히 많은 시간을 차지한다. 이는 뭔가 해보고싶은 새로운 직원들을 답답하게 하는 요소이지만, 이미 자리를 잡아놓은 사람들은 문화적 충격을 겪는 것을 거부할 수 있다. 결과적으로는 옛날 세상에 동화되든지, 아니면 절이 싫어서 중이 떠나든지..

어쨌거나, 계속적인 교육과 그를 통한 소규모 과제 진행 (다만, 기존업무 외 추가시간을 투입하길 요구한다면 잘 진행되지 않을 확률이 크다) 그에대한 발표및 업무와의 연관을 찾는 작업들이 이루어져야 한다고 본다. 

얼마 안된 직원이 외계어와 같은 필드의 의미를 모른다고 해서 그것이 그 사람이 10세와 같은 지능을 가지고 있는것이 아니다. 수평적인 조직문화 상태에서 개개인의 책임을 높이고 새로운것에 대해 꾸준히 연구하고 노력하는 문화를 심어주는것이 중요하다고 본다. 그렇게 하지 못하면 서로가 서로에게 책임만을 전가하는 영원히 늪일뿐..


어쨌건간에, 빠른시일이든 늦은시일이든 많은 기업들은 인메모리DB 혹은 클라우드 기반 분석환경, 하둡이나 스파크와 같은 병렬처리, 데이터핸들링을 위한 새로운 언어, 더욱 고급화된 데이터분석과 통계, 그리고 근미래를 예측하는 머신러닝까지 도입해야하는 환경에 있어보인다. 


기업에서의 특정부서가 바뀌지 않는다고 그건 안정적인것이 아니다. 이러한 먹거리들을 새로 발굴하고 도입해내는게 개인적인 발전도 있고 안정적인 직업의 영속성을 보장하는게 아닐까 싶다. 





'IT 서평' 카테고리의 다른 글

인에비터블 (The Inevitable)  (0) 2017.08.28
인에비터블  (0) 2017.08.27
소프트웨어 개발과 테스트  (0) 2016.12.16
누구나 쉽게 스칼라+플레이  (4) 2016.11.24
소셜 코딩으로 이끄는 GitHub 실천기술  (0) 2016.06.30