데이터분석/Code & Tools & Script Snippet 27

kalman script

잡음까지 포함된 입력 데이터를 재귀적으로 처리하는 필터Kalman filtering, also known as linear quadratic estimation (LQE), is an algorithm that uses a series of measurements observed over time, containing statistical noise and other inaccuracies, and produces estimates of unknown variables that tend to be more accurate than those based on a single measurement alone, by estimating a joint probability distribution over the..

데이터 분석대회 참가 정리 (1)

처음부터 대충의 가정과 모델을 세우긴 세우는데, 모델을 세우는건 사실은 데이터가 있으면 컴퓨터가 알아서 하는것이고, 마찬가지로 알고리즘을 고를만한 선택폭도 빠르고 확실한 부스팅 앙상블 계열을 택할수밖에 없는것으로 보이는데 그렇다면 제일 중요한것이라고 느껴진건 1) Input 데이터의 품질과 양인풋데이터에 어떠한 feature들이 준비되어서 설명력을 높여갈수있을지. 그리고 그 변수들간 어느정도 상관성이 있어도 일단 깔끔한 모델을 만드는게 목적이 아니라 예측력을 높인다는 측면에서는 최대한 많이 필요로 하는것이 보인다. 2) Predict 대상 데이터의 형태예측대상이 바로 옆에 있고 그대로 끝나면 상관이 없는데, 현실에서는 제대로된 모델을 세우려면 미래에도 동일한 형태로 학습데이터와 마찬가지인 데이터가 주어져..

R단점

데이터 다루는데 있어 R과 파이썬 중 하나를 추천해달라는 말이 많지만, 실제로 뭐가 좋고 나쁜지 개인적으로 느낀건 아래와 같다.1) 일관되지 않는 문법 - 몇가지 라이브러리들이 고군분투하지만 조금은 역부족.2) 프로그래밍의 비유연성. 파이썬도 환경구성을 글로벌에 덕지덕지 해놓거나 버전때문에 문제가 생기는 경우가 있긴한데, 잘 싸두면 나쁘지않음.R의 경우 패키지 설치등은 편하나, 다른 서비스에 붙일 때 좋지않다.3) 짜잘한 R studio 의 버그 및 커뮤니티 버전의 압박. R studio의존성. 예를들어 open file이 잘 안된다는등의 굉장히 간단한 버그가 존재한다.4) 1부터 시작하는 인덱스 5) { } 안에서 선언하는 지역변수들이 밖에서도 살아있다. 따라서, 모든 스크립트를 돌리려면 한번 깨끗하게..

Long - Wide 데이터

롱데이터와 와이드데이터는 명칭은 몰라도 그전부터 자주 접하던 상황으로,특히 ERP와 같이 데이터가 정형화 되어있지만 열심히 잘라서 보기좋게 만들거나, 데이터를 여기저기 합성을 해야할때 밑으로 쭉 내리는 경우가 있고, 옆으로 쫙 늘리는 경우가 있다. 롱 데이터는 밑으로 쭈욱 내리는 데이터다. R에서 reshape2을 이용해서 melt / cast를 통해 롱과 와이드를 쉽게 바꿀수있는데, melt는 죄다 녹여서 variable과 value를 밑으로 길게 늘이며, cast를 이용하면 다시 와이드 데이터로, variable이 가지고 있는 속성 하나하나마다 컬럼이 만들어진다.wide데이터의 단점은 컬럼수가 확정되어야 한다는것이며, 이는 새로운 종류의 데이터가 들어왔을때 쥐약이다. 테이블변경이나 컬럼추가는 실제 시..