어떤 단어가 특정문서에서 얼마나 중요한 위치를 차지하는 지 나타내는 알고리즘이다.
Term (특정한 단어) 가 문서에서 자주 나타나면 이건 좋은거다. 예를들어 '탈모' 라는 단어가 자주 등장한다면 이건 점수를 많이 많이 줄수있다.
다만, Document의 맥락상 '탈모'라는 단어가 계속 등장한다면 이건 전체가 탈모에 대해 이야기하고 있기 때문에 다른 단어가 점수를 얻을 확률이 많아진다.
따라서 TF * ( 1 / DF )
와 같은 식으로 해당 단어에 대한 무게감을 측정할수 있다.
'데이터분석 > Machine Learning' 카테고리의 다른 글
[링크] 참조자료 - scipy-cookbook (0) | 2016.01.08 |
---|---|
[용어] Tomography (0) | 2016.01.03 |
정리해야할것 + 참고할만한 책 (0) | 2015.12.02 |
Scikit-learn Knn사용법 / 정규화 및 기능 정리 (0) | 2015.11.29 |
R과 이진트리를 이용한 데이터의 분류분석 및 훈련 (0) | 2015.11.23 |