표본추출 방법은 무려 10년전부터 보고있는데 너무 피상적으로 봐서 이해가 되지 않았는데, 그게 나의 문제점인듯하다. 피상적으로 알면 바로 넘어간다는것. 알때 제대로 알아야 하는데!!
그래서 ! 태블릿으로 그려본다!
무작위 랜덤 추출 (Simple Random Sampling)
그냥 아무거나 뽑아오는 방법이다.
근데 이렇게 뽑다보면 예를들어 한쪽에 요행히 몰리는 수가 있다.
계통(체계적) 추출 (Systematic Sampling)
계통추출은 정말 별거 없고 그냥 등차로 규칙있게 뽑는것이다. 3번째, 7번째, 11번째 이렇게 뽑는건데, 나무위키에 따르면 전화번호부에서 뭔가 뽑는것이 유용하다고?
층화추출 (Stratified Sampling)
그림을 보고 잘 알수없지만, 층화추출은 트레이닝 데이터와 테스트 데이터를 만들때 너무 자주 쓰인다. 예를들어 남자표본과 여자표본이 학습과 테스트 데이터에 똑같이 섞이게(남자70퍼, 여자30퍼의 비율 유지) 하고싶으면, 아예 한 집단에서 배타적인 범주를 정해놓고 비율로 뽑아낼수 있을것이다.
군집 추출 (Cluster Sampling)
중학교 실태를 조사해야하는데, 현실적인 이유로 한학교만 조사하게 되었다면 이건 군집 추출이다. 군집간 이질성이 최소일때 어차피 그놈이 그놈이라고 생각하면서 대표로 한놈만 표본으로 사용할수 있다. 층화 추출과는 정반대!
'데이터분석' 카테고리의 다른 글
lightGBM, CatBoost, xgboost stacking / 코드 예제 (0) | 2018.07.28 |
---|---|
boosting 계열 알고리즘 3대장 정확도 간단비교. (0) | 2018.07.28 |
윈도우 스파크 실행을 위한 머시기 (0) | 2018.03.10 |
What is Data Science? (0) | 2018.03.06 |
R 에서 readTableHeader 에러가 떨어질경우 (0) | 2016.05.01 |