데이터분석/Preprocessing 8

R에서의 NA처리 na.approx 주의와 NA채우는 꼼수

NA.APPROX 같은경우, NA값을 대체해준다. ZOO패키지 안에 존재하는데 상당히 유용하지만, 문제는 시계열 데이터에만 해당된다는것이다.만약, 시계열 데이터를 샘플링이나 테스트/트레인 과정에서 뒤섞는다면 NA.APPROX는 앞뒤 값을 고려해서 채워넣기 때문에 맞지 않는 값으로 채워넣는다. 평균값으로 처리하거나 NA를 탈락시키는 편이 훨씬 나은데도 말이다. 예를들어 NA.APPROX를 통하면 1 2 3 4 NA 81 2 3 5 6 8로 채워지고, 또하나 명심해야 하는건 NA가 맨앞에 존재하면 NA를 날려먹는다. XGBOOST R구현체의 경우, 레이블 벡터와 훈련피처들을 따로 넣어야 하는 상황이 오는데, 아래와 같은 상황에서 레이블 벡터가 있으면 NA.APPROX가 NA 2 3 4 5 82 3 4 5 8..

결측치 제거를 위한 몇가지 팁

데이터에서 NA값이 있으면 아주 몹쓴 결과치이다. 데이터에 결측치가 있는지 확인> table(teens$gender, useNA = "ifany") 아예 결측치로 바꿔버릴수도있다.> teens$age = 13 & teens$age mean(teens$age) [1] NA > mean(teens$age, na.rm = TRUE) [1] 17.25243 데이터의 부분그룹에 대한 통계를 얻을때는?> aggregate(data = teens, age ~ gradyear, mean, na.rm = TRUE) gradyear age 1 2006 18.65586 2 2007 17.70617 3 2008 16.76770 4 2009 15.819..

%in% 연산자..

사실, 어떻게 쓰는지 정확히 아는것은 중요하지 않다. 왜냐면, 문법이나 그런것들은 어차피 찾아보게 되니까..중요한건 기능이 있다는것을 아는것.. 그리고 어떠한 기능이 있는걸 잠깐 지나치고 보면, 모든걸 까먹는다. 시간이 10배가 들어도 이해를 제대로 하고 넘어가는게 중요한것.. R에서는%in% 이란게 신기한게 있다.실제, 어떤 데이터가 들어있는지 확인할수 있는것> usedcars$conservative