TF - IDF(Term Frequency - Inverse Document Frequency)
2022. 4. 27. 10:39ㆍAI study
1. TF(Term Frequency)
- 1개의 문서안에서 특정 단어의 등장 빈도를 의미
=> 문장을 단어로 나누고, 전체 단어수가 얼마나 사용됐는지 파악해 문서의 종류를 분류하는 지표로 사용
2. DF(Documnet Frequency)
- 특정 단어가 나타나는 문서의 갯수를 의미
특정단어가 각 문선들에 몇 번 등장해는지는 신경쓰지 않고, 특정단어가 문서의 수에 등장했는지 안했는지만 관심을 가짐
※ 100개의 문서중 2개의 문서만 '반도체' 라는 단어가 등장하면, 그 문서안의 '반도체'가 100번, 200번 등장했는지는 관심없고 오로지 'DF(반도체') == 2를 의미함
3. IDF(Inverse Document Frequency)
- 특정 단어 모든 문서에 등장하는 흔한 단어라면, 이를 방지하기 위해 TF-IDF 가중치를 낮추기 위해 역수를 취한 값
※ 전체 문서가 많을 수록 값이 커져, 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위해 Log를 취함
※ 1을 더하는 이유는 단어가 포함된 문서가 없을 경우 분모가 0이 되어버리기 때문에 이를 방지하기위해 1을 더함
=> 빈도수가 많이 발생할 수록 IDF값이 낮아지는 것을 확인가능
TF - IDF(Term Frequency - Inverse Document Frequency)
TF - IDF는 TF, IDF 두 수치를 곱한 값
특정 단어가 한 문서에 몇 번 언급되며, 문서군에서는 얼마나 등장하였는지를 표현한 가중치
'AI study' 카테고리의 다른 글
afreecaTv_ recommend (0) | 2022.04.27 |
---|---|
Twitter _ Content-based Hashtag Recommendation Methods for Twitter (0) | 2022.04.27 |
AI_filtering study (0) | 2022.04.25 |
[Search]Hashtag Recommendation (0) | 2022.04.20 |
Sentimentation 01 (0) | 2022.04.14 |