성향적, 상황적, 행동적 SOA, ODS CLD
ODS구성단계 : 인터페이스, 데이터스테이징, 데이터 프로파일링, 데이터클린징, 데이터인티그레이션, 익스포트
GFS - 파일에 대한 쓰기기능은 잘 이ㅜ어지지않음.
하이퍼바이저 - 성능향상을 위해 HW가상화 기술 병행
분석기회발굴 - 구조화 - 구체화 - 시나리오 정의 - 분석정의서
분석기회발굴 : 프로세스분류 -> 프로세스흐름분석 -> 분석요건식별 -> 분석요건정의
분석기회 구조화 : 유저스토리정의 -> 목표가치 구체화 -> 분석질문 구체화
기능형 분산형의 차이는 기능형은 해당 업무부서에서 직접.. 분산은 현업부서 배치
모델링 성과 평가 지표 Accuracy, decect Rate, Lift
시뮬레이션성과지표 Average Waiting Time, Average Queue Length, Time in system
최적화 Object Function Value의 차이
계통추출법, 집락, 층화
비율척도가 제일 많은 정보 보유 (명목, 순서, 구간, 비율 순서)
확률변수는 정의역이 표본공간, 치역이 실수값이 ㄴ함수
시계열 구성요소 - 추세, 계절, 순환, 불규칙
연관규칙장점 - 탐색적인 기법, 강력한 비목적성 분석기법, 사용이 편리한 분석 데이터, 계산 용이
공간분석 - ggmap
시각화도구 기초 - Excel, Google Chart, D3, visually
매핑 - Modest Maps, Leaflet, Polymaps, Open Layers, Kartograph, cartoDB
전문가 - Processing, NodeBO, R, Weka, Grphi
비계층적 군집방법 종류
kmeans(Centroid-based)
Expectation - Maximization (Distribution based clustering)
Density-based Clustering
Fuzzy Clustering
pam - robust한 kmeans, profiling 시 중앙값 이용
dbscan - density based clustering (library(fpc))
fanny - fuzzy clustering (특정 클러스터에 속할 확률 계산)
연관분석 arules 라이브러리
순차연관성 분석 - arules sequence 순차연관규칙 - cspade 시각화 - arulesviz
비정형데이터분석 tm 패키지, stripWhiteSpace 공백제거
TermDocumentmatrix 얼마나 자주 쓰였나 행렬
findFreqTerms() fundAssocs() removeSparseTerms()
wordcloud 는 gdata패키지를 통해 트위터 twitteR, RColorBrewer
SNA, 연결정도중심점, 근접중심점, 매개중심점, 위세중심점
최적화 lpSolve, TSP
단순회귀, 다중회귀, 다항회귀, 곡선회귀, 비선형회귀
다중공선성((multicollinearity) 검사방법 : VIF(분산팽창요인) 10보다 크면 문제
회귀모형의 선택지표 : 결정계수, mallows CP, AIC (Akaike's Information Criterion)
전진, 후진, 단계
차분 - 전 시점의 자료 제거
계정차분 - 여러시점 전의 자료제거
ACF - 자기상관함수 PACF - 부분자기함수
AR ACF감소 PACF 절단점
MA ACF절단점 PACF감소
cmdscale() mds (multidimensional scaling)
prcomp() 각 요소 계수 및 주성분 점수
R마트 구축 패키지 : reshape / sqldf / plyr / data.table
klaR greedy.wilks / plineplot / naivebayes
amelia <- missing 데이터 처리
의사결정나무 : party, rpart, randomForest
최근접 kknn 신경망분석 nnet SVM e1071 베이지안 learnBayes
ROC CUst 군집화는 hclust이용
TCO(Total Cost of Ownership)
ROI (Return On Invest)
PP (Payback Period)
seq / rep / index
matrix / diag / colnames / rownames / list / unlist
dataframe -> rbind, cbind, subset, merge, grep
모집단 - population
모수 - parameter
표본 - sample
통계량 - statistics
모수적 통계분석 기법 - 빈도분석(단순, 다중, 부분) 상관분석, 표본평균검증 (단일표본, 독립표본 paried) , 세집단 이상 평균 (anova, manova ) 회귀 (단순, 다중, 다항, 곡선, 로지스틱)
비모수적 통계분석 기법 - 적합도 검정(단일표본카이스퀘어, 단일표본KS검정, 이항분포검정) 변수간 상관분석 ( 스피어만 순위 상관분석, 켄달, 카이제곱)
표본추출 - 단순랜덤, 계통, 층화, 집락
이산확률분포 - 이산균등, 베르누이, 이항, 포아송
연속확률분포 - 정규, 연속균등, 카이제곱, 감마
유의수준 - 1종오류를 범할 확률의 최대 허용치 (significant level)
검정력 - 2종 오류를 1에서 빼줌 (power of test)
검정통계량 (test statistics) 기각역 (Critical Region) 유의확률(Significance Probability)
독립 2표본 평균검정 ( t.test )
대응 표본 평균검정 (t.test)
이표본분산 (var.test)
일표본비율 (prop.test)
이표본비율 (prop.test)
상관계수 검정 (cor.test)
독립성검정 (chisq.test)
정규분포여부 (shapiro.test(rnorm1000)) ks.test(1,2)
mean, median, sd, var, quantile, max, min
피어슨 - 등간척도 이상, 연속 정규
스피어만 - 서열척도, 모수
켄달 - 서열척도, 비모수
na.omit -> null값 처리
cor() 상관계수, cov() 공분산
LSE : Least SquareEstimate
'다중공선성' 독립변수간 강한 상관관계가 나타나는 문제
'데이터분석 > Code & Tools & Script Snippet' 카테고리의 다른 글
NLP Opensource (0) | 2017.03.29 |
---|---|
데이터 정리 (0) | 2016.02.15 |
[800/1100] 중요부분정리 (0) | 2016.02.08 |
[300/1100] 4일차 정리 (0) | 2016.02.04 |
[250/1100] 3일차 정리 (0) | 2016.02.03 |