데이터분석 167

R에서의 NA처리 na.approx 주의와 NA채우는 꼼수

NA.APPROX 같은경우, NA값을 대체해준다. ZOO패키지 안에 존재하는데 상당히 유용하지만, 문제는 시계열 데이터에만 해당된다는것이다.만약, 시계열 데이터를 샘플링이나 테스트/트레인 과정에서 뒤섞는다면 NA.APPROX는 앞뒤 값을 고려해서 채워넣기 때문에 맞지 않는 값으로 채워넣는다. 평균값으로 처리하거나 NA를 탈락시키는 편이 훨씬 나은데도 말이다. 예를들어 NA.APPROX를 통하면 1 2 3 4 NA 81 2 3 5 6 8로 채워지고, 또하나 명심해야 하는건 NA가 맨앞에 존재하면 NA를 날려먹는다. XGBOOST R구현체의 경우, 레이블 벡터와 훈련피처들을 따로 넣어야 하는 상황이 오는데, 아래와 같은 상황에서 레이블 벡터가 있으면 NA.APPROX가 NA 2 3 4 5 82 3 4 5 8..

데이터 분석대회 참가 정리 (1)

처음부터 대충의 가정과 모델을 세우긴 세우는데, 모델을 세우는건 사실은 데이터가 있으면 컴퓨터가 알아서 하는것이고, 마찬가지로 알고리즘을 고를만한 선택폭도 빠르고 확실한 부스팅 앙상블 계열을 택할수밖에 없는것으로 보이는데 그렇다면 제일 중요한것이라고 느껴진건 1) Input 데이터의 품질과 양인풋데이터에 어떠한 feature들이 준비되어서 설명력을 높여갈수있을지. 그리고 그 변수들간 어느정도 상관성이 있어도 일단 깔끔한 모델을 만드는게 목적이 아니라 예측력을 높인다는 측면에서는 최대한 많이 필요로 하는것이 보인다. 2) Predict 대상 데이터의 형태예측대상이 바로 옆에 있고 그대로 끝나면 상관이 없는데, 현실에서는 제대로된 모델을 세우려면 미래에도 동일한 형태로 학습데이터와 마찬가지인 데이터가 주어져..

R단점

데이터 다루는데 있어 R과 파이썬 중 하나를 추천해달라는 말이 많지만, 실제로 뭐가 좋고 나쁜지 개인적으로 느낀건 아래와 같다.1) 일관되지 않는 문법 - 몇가지 라이브러리들이 고군분투하지만 조금은 역부족.2) 프로그래밍의 비유연성. 파이썬도 환경구성을 글로벌에 덕지덕지 해놓거나 버전때문에 문제가 생기는 경우가 있긴한데, 잘 싸두면 나쁘지않음.R의 경우 패키지 설치등은 편하나, 다른 서비스에 붙일 때 좋지않다.3) 짜잘한 R studio 의 버그 및 커뮤니티 버전의 압박. R studio의존성. 예를들어 open file이 잘 안된다는등의 굉장히 간단한 버그가 존재한다.4) 1부터 시작하는 인덱스 5) { } 안에서 선언하는 지역변수들이 밖에서도 살아있다. 따라서, 모든 스크립트를 돌리려면 한번 깨끗하게..

Long - Wide 데이터

롱데이터와 와이드데이터는 명칭은 몰라도 그전부터 자주 접하던 상황으로,특히 ERP와 같이 데이터가 정형화 되어있지만 열심히 잘라서 보기좋게 만들거나, 데이터를 여기저기 합성을 해야할때 밑으로 쭉 내리는 경우가 있고, 옆으로 쫙 늘리는 경우가 있다. 롱 데이터는 밑으로 쭈욱 내리는 데이터다. R에서 reshape2을 이용해서 melt / cast를 통해 롱과 와이드를 쉽게 바꿀수있는데, melt는 죄다 녹여서 variable과 value를 밑으로 길게 늘이며, cast를 이용하면 다시 와이드 데이터로, variable이 가지고 있는 속성 하나하나마다 컬럼이 만들어진다.wide데이터의 단점은 컬럼수가 확정되어야 한다는것이며, 이는 새로운 종류의 데이터가 들어왔을때 쥐약이다. 테이블변경이나 컬럼추가는 실제 시..