데이터분석

브라이틱스로 데이터분석해서 중고차 사기

늘근이 2019. 3. 13. 17:32

중고차를 사야하기 때문에, K car에 내가 원하는 후방센서가 달린 차들을 몇개 뽑았다. 옵션은 비슷해보인다. 데이터는 아래와 같다.


차종연식주행거리가격
투싼1236109
투싼1236110
뉴 아반떼1561114
아반떼1644120
아반떼1645120
아반떼1637121
아반떼1626124
투싼1157125
아반떼1629125
투싼1157126
아반떼 디젤1662129
BMW 31162133
투싼1336142
아반떼1634144
뉴 투싼1522162
아반떼 스포츠1732164


수입차가 하나 껴있기는 하지만 어쨌든 모든걸 다 데이터마이닝하기는 힘드니, 빠르게 하고 지른다. 

사실, 효율적인 구매는 다나와에서 인기상품순으로 정렬한 다음에 지르는것이 시간과 비용을 아끼는 제일 좋은 방법인데, 차같은경우는 남심을 자극하는 뭔가가 있어서 조금더 시간을 투자해 초간단 회귀분석을 한다.

분석툴은 삼성SDS의 멋진툴 브라이틱스 (Brightics)다. 오픈소스로 풀어서 굉장히 매력지다. 물론, 몇가지 잘 안돌아가지만 귀엽게 봐주도록 한다. R이나 파이썬은 아무리 써도 주요쓰는게 아니면 문법등을 찾아야 하고 귀찮지만 이건 그렇지 않다.

여기서 다운로드 할수있다.

http://brightics.ai/

깃허브에도 있다. 에러가 있으면 역시 국산꺼라 거지같네- 하고 욕하지 말고 이때다 하고 버그를 고쳐서 커밋하자. 코어 개발자들은 감동을 먹을것이다.

https://github.com/brightics/studio



일단, 로딩은 간단하다.

차종은 아반떼와 투싼이 대부분이며 몇가지 이상한 차들이 껴있다. 마음이 동하는 차들..

연식과 주행거리간의 중요성은 보배성님들을 찾아봐도 잘 알수가 없고 내마음도 잘 알수가 없어서 일단 저걸로만 한다.

일단, 가격을 Y로 두고 연식과 주행거리를 투입한다. 실제 모델에서는 브랜드가 굉장히 영향을 많이 미치기 때문에 브랜드마다 회귀식을 짜야한다. 혹은 더미변수를 이용해 차별을 두어야 한다. 게다가 감가상각이 빠른 BMW같은 경우는 더욱더 기울기가 가팔라지지만, 그정도는 돈받고 일해야하기 때문에 이렇게만 돌린다.



로딩이 성공한 모습이다. 모두 더블로 되어있어 든든하다.



x변수에는 자동차 가격에 영향을 미칠거라 생각하는 요소를 투입하자. 나머지 옵션이나 컬러는 다 내가 원하는 색깔로 일단 뽑았으니, 연식과 주행거리만 투입하자. 그리고 맞춰야될 label에는 price를 넣는다. 이전비까지 모두 포함하고, K car에서 6개월 보증 프로그램까지 모두 한거라 실구매 가격이다.



데이터가 몇개 없어, 사실 통계적으로 유의하다고 하기 쑥쓰러운 수준이다. 그렇지만, 나는 더이상 시간을 쓰고싶지 않다.



제일 관심있는건 사실 잔차다. 회귀분석을 돌리고 난 다음에 남은 잔차가 무엇을뜻하냐? 여기서는 실제로 회귀식으로 선을 쭉 그었을때, 예측치와 실제 가격의 차이이다. 그뜻은 무엇인가? 제일 저평가된 놈을 살수 있다는것이다! 어차피 예산은 돈이 없으니 쌈마이지만 그래도 이정도면 구두쇠다.



이제 잔차대로 나래비를 시켜본다. 이제 결과대로 제일 모델별 저평가되어있는 차종을 고른다.


차종연식주행거리가격저평가지수
투싼1236109-19.41285787
투싼1236110-18.41285787
아반떼1626124-12.84768851
아반떼1637121-12.15466512
아반떼1629125-10.84050031
아반떼1644120-10.80455933
아반떼1645120-10.46882993
뉴 아반떼1561114-9.827775385
아반떼 디젤16621294.23856985
투싼11571254.906843672
투싼11571265.906843672
아반떼16341449.838146685
투싼133614212.31775797
BMW 3116213314.58549067
뉴 투싼152216225.07877806
아반떼 스포츠173216427.89730372


이제 무엇을 살거냐 - 생각해보니, 제조사 보증이 남아있는경우 가격이 더 낮아지기 때문에 연식이 16년도일 경우 더 나은경우가 있다. 이걸 처음부터 좀 모델에 집어넣는게 좋았는데, 대략 50만원~100만원 정도의 가치를 한다고 치는게 나은것같다. 

결과는 아반떼로, 제일 가성비 좋은 애로 고르긴했는데 자세히 보니 후방센서가 사제여서 그다음 후보의 아반떼를 사게 되었다. 제조사 보증이 남아있어서 이부분에 대해서 추가로 아낄수있어서 더 나은선택이라고 생각하고 차를 기다린다. (진짜 샀다.)


-------------------------------------------

그리고 하루이틀 후, 차를 받았다. 서비스는 아주 칭찬한다.


떨리는 마음에 시동을 거는순간, 뭔가 엔진이 켜지고 요란스레 마음이 아니라 몸이 떨렸다. 음? 20키로정도 시운전을 했는데, 마치 자잘한 경운기가 나를 애태우는것같았다. 그닐짜로 바로 반품했다. 역시 자동차는 직접 보고 시동 걸어보고 사기를 권한다. 무슨 데이터분석해서 사는것은 아닌것으로 한다.

그래서 다음날 따릉이를 타고 현대차에 가서 아반떼 하나 주세요~ 해서 하나 샀다.

역시 차는 신차다. 삼각떼도 신차로 사면 잘샀다고 끊임없이 자기합리화를 하게 된다. 마치 나의 애는 한없이 잘생겨보인다는 논리와 같은것 아닐까? 우리애라면 공부를 못해도 내 자식이다. 옵션이 없어도 예쁘다 깔깔. 

근데 둘째는 좀 공부잘하는 놈이 나오면 좋겠다는 생각이다.


'데이터분석' 카테고리의 다른 글

edge modes  (0) 2018.09.13
ADP 합격후기  (2) 2018.08.27
pandas factorize  (0) 2018.08.15
category변수 처리  (0) 2018.08.15
Simple LightGBM 예제  (0) 2018.08.08