'데이터분석/Preprocessing' 카테고리의 글 목록

데이터분석/Preprocessing 8

Task not serializable: java.io.NotSerializableException Never call sparkContext in function closure. in.rdd.flatMap { row => Seq.fill(row.getAs[Double]("xxx").toInt + 1)(row) }

데이터분석/Preprocessing 2018.05.14

Cannot call methods on a stopped SparkContext

Cannot call methods on a stopped SparkContext

데이터분석/Preprocessing 2018.05.06

[링크] lag spark scala

https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

데이터분석/Preprocessing 2018.05.05

R에서의 NA처리 na.approx 주의와 NA채우는 꼼수

NA.APPROX 같은경우, NA값을 대체해준다. ZOO패키지 안에 존재하는데 상당히 유용하지만, 문제는 시계열 데이터에만 해당된다는것이다.만약, 시계열 데이터를 샘플링이나 테스트/트레인 과정에서 뒤섞는다면 NA.APPROX는 앞뒤 값을 고려해서 채워넣기 때문에 맞지 않는 값으로 채워넣는다. 평균값으로 처리하거나 NA를 탈락시키는 편이 훨씬 나은데도 말이다. 예를들어 NA.APPROX를 통하면 1 2 3 4 NA 81 2 3 5 6 8로 채워지고, 또하나 명심해야 하는건 NA가 맨앞에 존재하면 NA를 날려먹는다. XGBOOST R구현체의 경우, 레이블 벡터와 훈련피처들을 따로 넣어야 하는 상황이 오는데, 아래와 같은 상황에서 레이블 벡터가 있으면 NA.APPROX가 NA 2 3 4 5 82 3 4 5 8..

데이터분석/Preprocessing 2018.04.21

R eval parse 예

R에서 제일 구린것중 하나가 eval parse가 아닐까 싶다. string_lag_selection

데이터분석/Preprocessing 2018.04.13

결측치 제거를 위한 몇가지 팁

데이터에서 NA값이 있으면 아주 몹쓴 결과치이다. 데이터에 결측치가 있는지 확인> table(teens$gender, useNA = "ifany") 아예 결측치로 바꿔버릴수도있다.> teens$age = 13 & teens$age mean(teens$age) [1] NA > mean(teens$age, na.rm = TRUE) [1] 17.25243 데이터의 부분그룹에 대한 통계를 얻을때는?> aggregate(data = teens, age ~ gradyear, mean, na.rm = TRUE) gradyear age 1 2006 18.65586 2 2007 17.70617 3 2008 16.76770 4 2009 15.819..

데이터분석/Preprocessing 2017.08.13

%in% 연산자..

사실, 어떻게 쓰는지 정확히 아는것은 중요하지 않다. 왜냐면, 문법이나 그런것들은 어차피 찾아보게 되니까..중요한건 기능이 있다는것을 아는것.. 그리고 어떠한 기능이 있는걸 잠깐 지나치고 보면, 모든걸 까먹는다. 시간이 10배가 들어도 이해를 제대로 하고 넘어가는게 중요한것.. R에서는%in% 이란게 신기한게 있다.실제, 어떤 데이터가 들어있는지 확인할수 있는것> usedcars$conservative

데이터분석/Preprocessing 2017.08.10

R - reshape를 이용한 데이터 핸들링

가끔가다, 앞에 id값을 넣고싶을때가 있다. 1부터 넣고 싶다면 아래와같이 한다. 아 물론 data에는 no라는 컬럼을 추가하고 싶은 상태> data$no melt_result cast(data, date~variable, c(mean, length))이런식으로 하면될듯하다.

데이터분석/Preprocessing 2017.08.09

늘

비용함수, 자바, 데이터마이닝, 디자인패턴, 선형대수, 장식 패턴, 디자인 패턴, 수식, 트리구조, composite 패턴, 팩토리 디자인, 스칼라, 교사학습, 지도학습, 2017 티스토리 결산, 이미지변환, 비지도학습, decorator, 머신러닝, 센차터치,

Today :
Yesterday :

옛날 블로그

데이터분석/Preprocessing 8

티스토리툴바

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30