소프트웨어 개발/Hadoop Ecosystem 6

로그인시 비밀번호가 필요없도록 ssh key를 이용하는 방법.

키가 있는 파일을 여러군데다 복사하면 된다. 일단 키를 제너레이트 시킨다. $ssh-keygen -t rsa -P "" 그리고 파일을 뒤져보면 .ssh/id_rsa.pub이 생겨있을텐데 이 파일의 내용을 슬레이브의 홈 디렉터리에서 (id는 마스터와 같은 상태).ssh/authorized_keys로 생성하면 비밀번호가 필요없이 바로 접속가능하다.

Hadoop 관련 오픈소스 나열

Zookeeper - 분산환경에서 서버간의 상호조정이 필요한 다양한 서비스.https://zookeeper.apache.org/ Oozie - 하둡 워크플로우 제어http://oozie.apache.org/ Hbase - 컬럼 기반 데이터베이스https://hbase.apache.org/ Pig - 대량의 데이터를 분석하기 위한 고차원 언어 제공https://pig.apache.org/ Hive - SQL을 통한 데이터워어하우징https://hive.apache.org/ Mahout - 머신러닝http://mahout.apache.org/ Sqoop - 대량 데이터 인터페이스 솔루션http://sqoop.apache.org/ Impala - 실시간 SQL질의 시스템http://impala.incubato..

Hadoop 2 버전 설치

YARN의 특징은 Resource Manager를 분리했다는 것! 프로토콜 버퍼일단 프로토콜 버퍼라는 걸 설치해야한다. 프로토콜 버퍼는 데이터를 연속된 비트로 만들고 할수 있다. 이종간 데이터 통신을 원할하게 하기위해 하는 것이다. 하둡2도 내부 데몬간의 데이터 통신을 위해 프로토콜 버퍼 적용했다. https://developers.google.com/protocol-buffers/docs/downloads?hl=ko이상하게 컴파일을 해야한다. ./configure make make install 하둡다운로드 및 설치http://mirror.apache-kr.org/hadoop/common/hadoop-2.6.0/JAVA_HOME 만 설정해주면 되는데 이 변수는 $ vi /etc/profile.d/cla..

Hadoop 콤바이너 클래스를 이용한 튜닝

콤바이너 클래스 적용.다음과 같이 콤바이너 클래스를 Driver에 추가만 해주면 조금더 빨리 된다. 콤바이너 클래스는 매퍼의 출력 데이터가 네트워크를 통해 리듀서에 전달되기 전에 매퍼의 출력 데이터의 크기를 줄이는 기능을 수행한다.입출력 데이터 포맷 설정 전에 다음과 같은 코드를 한줄 추가한다 Job.setCombinerClass(DelayReducer.class) 컴바이너 클래스를 적용하기 전 걸린 시간은 약 40분이였고, 컴바이너 클래스를 적용한 결과 약 37분으로써, 별로 시간이 그렇게 줄어든것 같지 않다. 다음은 그 결과이다. GZIP적용 다음과 같이 맵 출력 압축설정을 할수 있다. SequenceFileOutputFormat.setCompressOutput(job, true); SequenceF..

Hive 간단 설치 및 이용법

다음의 사이트에서 hive를 다운로드한다.http://apache.mirror.cdnetworks.com/hive/hive-1.1.0/ 그리고, conf에는 template밖에 없으므로 다음의 명령어로 새로 하나 만들어준다. $ mv conf/hive-env.sh.template conf/hive-env.sh 사실 MySQL등의 DBMS를 쓰고 싶으면 hive-site.xml 을 수정해야 하지만, 그냥 냅다 쓸수도 있다.이제 다음과 같은 명령어로 실행한다. $ ./bin/hive - 만약 권한문제로 에러가 나면 tmp/hive권한을 777로 올려준다.- 만약 log관련해서 에러가 뜬다면 $HADOOP_HOME/share/hadoop/yarn/lib/jline-0.9.94.jar 이 파일을 없애준다. - ..

Hadoop 빠르게 설치하고 쉽게 이용하기

HADOOP 빠르게 설치하고 이용해보기. 하둡 빠르게 짚고 넘어가기하둡은 파일 시스템으로써, RDBMS(관계형 데이터베이스)를 대체해버릴수 있는 강력한 요술봉이 아닙니다. 데이터 무결성과 정합성이 중요한 은행거래와 같은 경우는 RDBMS를 이용하고, 다량의 로그나 데이터 처리를 할때 빠르게 처리할 경우에는 HDFS를 이용합니다. 예) New York Times 가 130년치 신문 -> PDF 변환 작업을 하루만에 끝냄. (기존 방식 10년 예상) 하둡 파일 시스템은 오픈소스이고 여러사람에 의해 발전되어왔기 때문에 사람을 힘들게 하는 SAP 설치보다 훨씬 간단합니다. 다만 windows 설치는 여의치 않기 때문에 linux로 진행합니다. 시스템 설치환경 (1대) Ubuntu Linux 14.04 Serve..