데이터분석 167

회귀 결정트리의 불순도 측정과 값 해석

걍 나중 기억회복용결정트리, 결정나무, 디시전트리, 디시전나무(?) 참으로 많은 이름으로 불리지만, 보통은 분류 문제만 소개하고 있지 회귀방식에 대한 깊은 이해가 되어있는 글은 없어서 이해차원차 일단 끄적거린다. 회귀는 사실 어떻게 보면 그냥 선형성이 보인다면 회귀를 돌리는게 맞아보이고, 결정트리의 경우 예측값이 연속적으로 나오는게 아니라 띄엄띄엄 우둘투둘(jagged) 존재하기 때문에 처음으로 고민하는 모델은 아닌듯하다.그러나, 해석력이 꼭 필요한 실무의 경우인데, 예를들어 미세먼지를 측정하는데 있어 바람의 세기와 풍향의 각도등이 들어온다면 선형적으로 구분할수 없는 문제가 되어버린다. 미세먼지 크기 = 풍향의 각도 * 100 + if동남풍이면??바람의 방향에 따라 바뀌어야 되는 조건이 다르다면 미세먼지..

스택힝

어느날 데이터사이언티스트라는 직업이 21세기 제일 섹시한(?)직업이라고 뜨고 모두가 머신러닝이라는것을 관심가지게 되었다.Kaggle이라는 데이터 분석 대회의 성지에서는 모두가 몰려들게 되었다.그리고 누구나 R로 lm() 함수를 통해서 중간은 가는 베이스라인 모델을 5초만에 만들게 되었다. 그러자 이제는 0.01 퍼센트를 쥐어짜기 위한 대단한 사람들이 등장했다.처음에는 bagging이라는 기법으로 여러가지 모델을 잘 섞어서 쓰는 방법이 쓰였다.앙상블이라는 무슨 아이스크림같은 이름도 있었다.이제는 모델을 다시 섞는 방법이 태어났다.그리고 그 모델을 다시 섞었다. 모든사람이 맞대면 성능은 올라가기 마련. 해석은 일단 뒷전이고 모두가 팀을 이뤄서 모델을 섞기 시작한다.그러자 모델을 어떻게 섞어야 또 성능이 나오..

카이스퀘어 동질성 / 독립성 검증 정리

동질성 검증: '변인의 분포가 이항분포나 정규분포와 동일하다'라는 가설을 설정한다. 이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다.독립성 검증: 변인이 두 개 이상일 때 사용되며, 기대빈도는 '두 변인이 서로 상관이 없고 독립적'이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힌다. p-value가 정해진 수준 0.1 이나 0.05보다 작으면 제대로된 랜덤 샘플링이 아닌 특이값이라는 것인데, 위의 경우는 p-value가 기각하지 못하므로, 해당 모집단에서 나왔다는 귀무가설을 기각하지 못한다.

왜 불편분산에서 n이 아닌 n-1 로나누는가?

일단, 분편분산의 기대값은 시그마제곱이며, 불편분산은 한 표본안에 들어있는 분산을 계산한건데, 이와중에 이상하게 n이 아닌 n-1로 푼다. 만약 n으로 계산한다면 표본분산과 미묘한 차이가 있게 된다. n-1 / n만큼의.. 왜 그런지 수학적으로 정리를 해놓은 강좌가 밑에 링크에 있다.밑의 날림글씨를 보지말고 해당 강좌에 들어가서 따봉 해주고 보면된다. 고등학생은 꼭보라고 하는데 고등학생만 꼭 보라는것 같아 직장인이 되서 보려니 좀 쑥쓰럽다.결국 n이 아니라 n-1로 나눠야 딱 모분산과 분편분산의 기대값이 일치하게 된다. 이 n-1을 자유롭게 둥둥 떠다니는 놈이라고 해서 자유도라고 부르고, 좀더 추상적으로 이해해 보자면 어차피 표본 분산을 구할때의 X1 - Xbar ... 에 해당되는 부분을 다 더한값은 ..