데이터분석/Machine Learning

TF-IDF(Term Frequency - Inverse Document Frequency)

늘근이 2015. 12. 3. 23:07

어떤 단어가 특정문서에서 얼마나 중요한 위치를 차지하는 지 나타내는 알고리즘이다.

 

Term (특정한 단어) 가 문서에서 자주 나타나면 이건 좋은거다. 예를들어 '탈모' 라는 단어가 자주 등장한다면 이건 점수를 많이 많이 줄수있다.

 

다만, Document의 맥락상 '탈모'라는 단어가 계속 등장한다면 이건 전체가 탈모에 대해 이야기하고 있기 때문에 다른 단어가 점수를 얻을 확률이 많아진다.

 

따라서 TF * ( 1 / DF )

 

와 같은 식으로 해당 단어에 대한 무게감을 측정할수 있다.