데이터분석/Code & Tools & Script Snippet

데이터 총 정리

늘근이 2016. 2. 14. 22:31

성향적, 상황적, 행동적 SOA, ODS CLD

ODS구성단계 : 인터페이스, 데이터스테이징, 데이터 프로파일링, 데이터클린징, 데이터인티그레이션, 익스포트

GFS - 파일에 대한 쓰기기능은 잘 이ㅜ어지지않음.

하이퍼바이저 - 성능향상을 위해 HW가상화 기술 병행


분석기회발굴 - 구조화 - 구체화 - 시나리오 정의 - 분석정의서


분석기회발굴 : 프로세스분류 -> 프로세스흐름분석 -> 분석요건식별 -> 분석요건정의

분석기회 구조화 : 유저스토리정의 -> 목표가치 구체화 -> 분석질문 구체화


기능형 분산형의 차이는 기능형은 해당 업무부서에서 직접.. 분산은 현업부서 배치


모델링 성과 평가 지표 Accuracy, decect Rate, Lift

시뮬레이션성과지표 Average Waiting Time, Average Queue Length, Time in system

최적화 Object Function Value의 차이


계통추출법, 집락, 층화

비율척도가 제일 많은 정보 보유 (명목, 순서, 구간, 비율 순서)

확률변수는 정의역이 표본공간, 치역이 실수값이 ㄴ함수


시계열 구성요소 - 추세, 계절, 순환, 불규칙


연관규칙장점 - 탐색적인 기법, 강력한 비목적성 분석기법, 사용이 편리한 분석 데이터, 계산 용이


공간분석 - ggmap


시각화도구 기초 - Excel, Google Chart, D3, visually

                매핑 - Modest Maps, Leaflet, Polymaps, Open Layers, Kartograph, cartoDB

                전문가 - Processing, NodeBO, R, Weka, Grphi


비계층적 군집방법 종류

kmeans(Centroid-based)

Expectation - Maximization (Distribution based clustering)

Density-based Clustering

Fuzzy Clustering


pam - robust한 kmeans, profiling 시 중앙값 이용

dbscan - density based clustering (library(fpc))

fanny - fuzzy clustering (특정 클러스터에 속할 확률 계산)


연관분석 arules 라이브러리

순차연관성 분석 - arules sequence 순차연관규칙 - cspade 시각화 - arulesviz


비정형데이터분석 tm 패키지, stripWhiteSpace 공백제거

TermDocumentmatrix 얼마나 자주 쓰였나 행렬

findFreqTerms() fundAssocs() removeSparseTerms()


wordcloud 는 gdata패키지를 통해 트위터 twitteR, RColorBrewer


SNA, 연결정도중심점, 근접중심점, 매개중심점, 위세중심점

최적화 lpSolve, TSP


단순회귀, 다중회귀, 다항회귀, 곡선회귀, 비선형회귀


다중공선성((multicollinearity) 검사방법 : VIF(분산팽창요인) 10보다 크면 문제


회귀모형의 선택지표 : 결정계수, mallows CP, AIC (Akaike's Information Criterion)

전진, 후진, 단계


차분 - 전 시점의 자료 제거

계정차분 - 여러시점 전의 자료제거

ACF - 자기상관함수 PACF - 부분자기함수

AR ACF감소 PACF 절단점

MA ACF절단점 PACF감소


cmdscale() mds (multidimensional scaling)

prcomp() 각 요소 계수 및 주성분 점수

R마트 구축 패키지 : reshape / sqldf / plyr / data.table


klaR greedy.wilks / plineplot / naivebayes


amelia <- missing 데이터 처리


의사결정나무 : party, rpart, randomForest


최근접 kknn 신경망분석 nnet SVM e1071 베이지안 learnBayes


ROC CUst 군집화는 hclust이용


TCO(Total Cost of Ownership)

ROI (Return On Invest)

PP (Payback Period)


seq / rep / index

matrix / diag / colnames / rownames / list / unlist

dataframe -> rbind, cbind, subset, merge, grep

모집단 - population

모수 - parameter

표본 - sample

통계량 - statistics

  모수적 통계분석 기법 - 빈도분석(단순, 다중, 부분) 상관분석, 표본평균검증 (단일표본, 독립표본 paried) , 세집단 이상 평균 (anova, manova ) 회귀 (단순, 다중, 다항, 곡선, 로지스틱)


비모수적 통계분석 기법 - 적합도 검정(단일표본카이스퀘어, 단일표본KS검정, 이항분포검정) 변수간 상관분석 ( 스피어만 순위 상관분석, 켄달, 카이제곱)


표본추출 - 단순랜덤, 계통, 층화, 집락


이산확률분포 - 이산균등, 베르누이, 이항, 포아송

연속확률분포 - 정규, 연속균등, 카이제곱, 감마



유의수준 - 1종오류를 범할 확률의 최대 허용치 (significant level)

검정력 - 2종 오류를 1에서 빼줌  (power of test)

검정통계량 (test statistics) 기각역 (Critical Region) 유의확률(Significance Probability)


독립 2표본 평균검정 ( t.test )

대응 표본 평균검정 (t.test)

이표본분산 (var.test)

일표본비율 (prop.test)

이표본비율 (prop.test)

상관계수 검정 (cor.test)

독립성검정 (chisq.test)

정규분포여부 (shapiro.test(rnorm1000)) ks.test(1,2)


mean, median, sd, var, quantile, max, min


피어슨 - 등간척도 이상, 연속 정규

스피어만 - 서열척도, 모수

켄달 - 서열척도, 비모수


na.omit -> null값 처리

cor() 상관계수, cov() 공분산

LSE : Least SquareEstimate

'다중공선성' 독립변수간 강한 상관관계가 나타나는 문제





'데이터분석 > Code & Tools & Script Snippet' 카테고리의 다른 글

NLP Opensource  (0) 2017.03.29
데이터 정리  (0) 2016.02.15
[800/1100] 중요부분정리  (0) 2016.02.08
[300/1100] 4일차 정리  (0) 2016.02.04
[250/1100] 3일차 정리  (0) 2016.02.03