데이터분석/Code & Tools & Script Snippet 27

[Dockerfile] docker setting for r-deep learning

https://hub.docker.com/r/chstone/mxnet-gpu/ docker build -t 태그/태그 ./과 같은 형식으로 빌드하면 된다. 그리고, docker images를 통해 살펴보면, 해당하는 태그 이름으로 이미지가 따뜻하게 구워져있다. Dockerfile FROM chstone/mxnet-gpu:latestMAINTAINER PKS Prakash # Install dependenciesRUN apt-get update && apt-get install -y python2.7 python-pip python-dev ipython ipython-notebook python-pip default-jre # Install pip and Jupyter notebookRUN pip inst..

데이터 정리

ODS - 데이터 표준화와 정제가 이루어짐Staging Area - 거의 복사한 수준으로 Er모델형태를 가지고 정제가 되어있지는 않음.CDC - 실시간 또는 근접 실시간 데이터 통합을 기반으로 함. sqoop - RDB와 아파치하둡간 효율적으로 변환하여 주는 CLIzookeeper - 데이터변경되면 어떤노드에게 변경되었는지 알려줌. 디렉터리 구조로 저장함.pig - 맵리듀스 프로그램의 데이터 변환순서를 만드는것으로 사용자가 원하는 함수를 구현가능.Shark - 대용량 질의기술로 인메모리 기반 DW, Hive와 호환 --R--R에서 기본 sample data 는 datasets에 저장되어있다.q() 종료gc() 카비지 클린rattle - guias.Dat() 데이터형태를 일자 형식으로 바꿈save(x, f..

데이터 총 정리

성향적, 상황적, 행동적 SOA, ODS CLDODS구성단계 : 인터페이스, 데이터스테이징, 데이터 프로파일링, 데이터클린징, 데이터인티그레이션, 익스포트GFS - 파일에 대한 쓰기기능은 잘 이ㅜ어지지않음.하이퍼바이저 - 성능향상을 위해 HW가상화 기술 병행 분석기회발굴 - 구조화 - 구체화 - 시나리오 정의 - 분석정의서 분석기회발굴 : 프로세스분류 -> 프로세스흐름분석 -> 분석요건식별 -> 분석요건정의분석기회 구조화 : 유저스토리정의 -> 목표가치 구체화 -> 분석질문 구체화 기능형 분산형의 차이는 기능형은 해당 업무부서에서 직접.. 분산은 현업부서 배치 모델링 성과 평가 지표 Accuracy, decect Rate, Lift시뮬레이션성과지표 Average Waiting Time, Average Q..

[800/1100] 중요부분정리

요약변수 파생변수데이터 마트 개발 reshape / sqldf / plyr데이터 가공 klaR기초분석 및 데이터관리 결측치Amelia 이상값greedy.wilks의사결정 트리 party rpart랜덤포레스트 roc caret 연관규칙, apriori (2세대 fp tree 3세대 fpv)sku stock keeping unit정확도 재현율corpus - text마이닝 데이터 정제 통합 선택 변환 과정을 거친 구조화된 단계 몬테카를로삼각분포주요프로그램 slamsystem factor siman/arena simscript simfactory최적화툴 lindo gino ilog ctrytallball