TF - IDF(Term Frequency - Inverse Document Frequency)

2022. 4. 27. 10:39AI study

1. TF(Term Frequency)

- 1개의 문서안에서 특정 단어의 등장 빈도를 의미

=> 문장을 단어로 나누고, 전체 단어수가 얼마나 사용됐는지 파악해 문서의 종류를 분류하는 지표로 사용

 

2. DF(Documnet Frequency)

- 특정 단어가 나타나는 문서의 갯수를 의미

특정단어가 각 문선들에 몇 번 등장해는지는 신경쓰지 않고, 특정단어가 문서의 수에 등장했는지 안했는지만 관심을 가짐

※ 100개의 문서중 2개의 문서만 '반도체' 라는 단어가 등장하면, 그 문서안의 '반도체'가 100번, 200번 등장했는지는 관심없고 오로지 'DF(반도체') == 2를 의미함

3. IDF(Inverse  Document Frequency)

- 특정 단어 모든 문서에 등장하는 흔한 단어라면, 이를 방지하기 위해 TF-IDF 가중치를 낮추기 위해 역수를 취한 값

    ※ 전체 문서가 많을 수록 값이 커져, 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위해 Log를 취함

    ※  1을 더하는 이유는 단어가 포함된 문서가 없을 경우 분모가 0이 되어버리기 때문에 이를 방지하기위해 1을 더함

 

 

=> 빈도수가 많이 발생할 수록 IDF값이 낮아지는 것을 확인가능

 

TF - IDF(Term Frequency - Inverse  Document Frequency)

TF - IDF는 TF, IDF 두 수치를 곱한 값 

특정 단어가 한 문서에 몇 번 언급되며, 문서군에서는 얼마나 등장하였는지를 표현한 가중치

 

'AI study' 카테고리의 다른 글

afreecaTv_ recommend  (0) 2022.04.27
Twitter _ Content-based Hashtag Recommendation Methods for Twitter  (0) 2022.04.27
AI_filtering study  (0) 2022.04.25
[Search]Hashtag Recommendation  (0) 2022.04.20
Sentimentation 01  (0) 2022.04.14