데이터분석/Code & Tools & Script Snippet

데이터 정리

늘근이 2016. 2. 15. 21:20

ODS - 데이터 표준화와 정제가 이루어짐

Staging Area - 거의 복사한 수준으로 Er모델형태를 가지고 정제가 되어있지는 않음.

CDC - 실시간 또는 근접 실시간 데이터 통합을 기반으로 함.


sqoop - RDB와 아파치하둡간 효율적으로 변환하여 주는 CLI

zookeeper - 데이터변경되면 어떤노드에게 변경되었는지 알려줌. 디렉터리 구조로 저장함.

pig - 맵리듀스 프로그램의 데이터 변환순서를 만드는것으로 사용자가 원하는 함수를 구현가능.

Shark - 대용량 질의기술로 인메모리 기반 DW, Hive와 호환


--R--

R에서 기본 sample data 는 datasets에 저장되어있다.

q() 종료

gc() 카비지 클린

rattle - gui

as.Dat() 데이터형태를 일자 형식으로 바꿈

save(x, file = "x.rdata")


> x

 [1]  1  2  3  4  5  6  7  8  9 10

> median(x)

[1] 5.5

> mean(x)

[1] 5.5


??통하면 web을 통해 검색할수있다.


ANOVA : 3집단 이상의 평균치를 검정하는 모수적 통계분석

Chisqaure Test : 비모수적 통계기법

Logit : 비선형 회귀분석 모형

ANCOVA : ANOVA와 regression을 활용한 분석기법


0~100범위에서 12개의 난수를?

x = runif(12,0,100)


 K-S test : 데이터의 분포가 연속 1차원 확률분포와 일치하는지 검증하는 비모수적.

T-test : 두집단의 평균이 동일한 모집단에서 추출되었는지 검증하는 모수적 통계기법

Chisqure Test : 명목변수나 서열변수에 대해 집단간에 차이가 있는지 검증하는 비모수적 통계기법

Run test : 관측값이 random이라는 통계학의 기본가정을 검정하는 비모수적 통계기법


reshape 는 melt(피봇전 데이터를 id기준으로 표준화 함)와 cast(data특정한 형태로 요약하는기능)


foreach 패키지는 멀티코어나 클러스터를 사용할 수 있다.


데이터 분석 최상위 프로세스

요건정의 -> 모델링 -> 검증 및 테스트 -> 적용


GFD 와 Hadoop DFS 는 Multiple Metadata Server가 지원된다.

회귀식에서 결정계수란, 모형의 설명력을 판단하는 거임

Linear Programming 은 Maximization 과 Minimization 2가지가 있다.

최적화 모델링의 구성요소 - 목적함수, 제약조건


PACS - 의료영상저장전송시스템 - Picture Archiving and Communication System

진료결과가 저장되어있는 DB는 Cohort DB라고 한다.


행동유형은 예측분석의 활용분야임.

의사결정나무에서 뿌리노드는 의미가 없다.

세분화는 무조건 군집화를 이용한다.

의사결정나무에서 뿌리노드만 나올 경우는 충분한 변별력이 있는 변수가 없는 경우다. 


R에서 caret에서 변수 중요도를 산출할대 사용하는 function - varImp

party패키지의 필요한 모델링 함수는 ctree() 임

군집화 실행 후에 최적의 k개의 집단을 결정할때 사용되는 값은 집단 내에서의 분산의 합을 이용함

kmeans 에서 profile작성에 활용되는 통계값은 평균이다.

와드연결법 - 군집내 편차들의 제곱합을 고려한 방법

fuzzy clustering - 숫자변수만 가능하고 NA를 허용한다. cluseter개수가 관측치의 50%까지가능


전통적인 세분화 방법 - 단순격자형은 작업을 하는데 오랜시간 걸림. 후처리로 병합할때 원칙이 명확하지 않음. 변수의 특성으로 인한 변동에 의해 의미없이 고객집단이 이동, 프로파일 자체가 약간 변하는 일이 생김.. 프로파일이란?


arules -> 연관성분석

apriori 는 transaction을 필요로 함.


하나의 event후 다른 event가 발생한다는 규칙은 sequence analysis임.

연관규칙분석절차 (최소지지도를 정한다 -> 개별품목중에서 최소지지도를 넘는 모든 품목을 찾는다 -> 개별품목만을 이용해서 최소 지지도를 넘는 2가지 품목집합을 찾음 -> 최소지지도가 넘는 3가지 품목집합을 찾음 -> 반복적으로 수행하여 최소지지도가 넘는 빈발품목을집합을 찾는다.)

연관규칙은 비목적성이라 목적변수가 필요없으므로 유용하다.


시계열 모델의 오차를 평가하는데는 - Mean Absolute Percentage Error 를 사용한다.

X12ARIMA - 요일구성특성과 공휴일을 고려하여 개발하는 모델링 기법

공분산은 시차에만 의존하고, 특정시점에는 의존하지 않는다.

평균이 일정하지 않음 - 차분, 분산이 일정하지 않음 - 변환(tranformation)


시뮬레이 모델이 현상을 충분히 반영하는지 - validation

시뮬레이션 코드가 제대로 작동하지는지 - verification

조립생산공장, 전자제품, 타이어조립 - discrete event simulation

석유화학 같은 산업은 - continuous simulation.

시뮬레이션에서 초기값을 설정하고 안정화되기까지 warm up period

시뮬레이션을 반복실행하여 평균값을 구해 평가하는 방식 - multiple analysis

findFreqTerms()  전처리 한다음 빈도가 일정수준 높은 단어를 표시


이질적인 객체간의 관계로 연결된 구조를 bipartite graph라고 함.

소셜네트워크에서 연결정도의 차이를 나타내는 지표 - size

전반적인 연결정도 수준을 나타내는 지표 - density

네트워크 내에서 연결된 노드의 개수 degree

네트워크에서의 관계가 얼마나 강한지를 나타내는 지표로 구조적 특성이 불균형을 설명한느데 - reciprocity임

네트워크에서 3개의 노드간의 관계를 기반으로 군집화된 구조를 표시하는 지표 - transitivity

노드 A-B-C되지만 A-C는 안되는 경우 intransitive임.

네트워크에서 군집화 정도를 나타내는 지표 - clustering coefficient

네트워크에서 임의 노드에서 다른 노드간에 몇단계에 연결되는지를 이용해서 네트워크 크기를 나타내는 지표는  - diameter

네트워크내에서 노드가 차지하는 위치로 중요도를 나타내는 지표 - centerality


degree 연결정도 중심점 - 얼마나 많은 다른점들이 관계를 맺고 있는지가 척도로 연결된 노드

closeness 근접중심점 - 거리의 합이 적을수록

betweenness 매개중심점 - 최다경로위에 위치

eigenvector 위세중심성 - 위세가 높은 사람들과 관계가 많을수록 자신의 위세가 높아짐.


노드의 연결이 추가적인 연결관계를 가져 중복되는 정도를 나타냄 - redundancy

그룹간 중개자 coordinator, consultant, bridge

노드로 어떤 두사람이 각각 다른 사람과 연결관계를 갖고있는 경우 중 유사한 관계를 갖고있을때 - equivalence


'데이터분석 > Code & Tools & Script Snippet' 카테고리의 다른 글

[R] keras / h2o / tensorflow 설치  (0) 2017.11.14
NLP Opensource  (0) 2017.03.29
데이터 총 정리  (0) 2016.02.14
[800/1100] 중요부분정리  (0) 2016.02.08
[300/1100] 4일차 정리  (0) 2016.02.04