TF*IDF
Численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции.
Используется для оценки важности слова в контексте документа, который является частью коллекции документов.
Формула: TF-IDF термина X = (TF термина X) * (IDF термина X), где
- TF — это отношение между количеством вхождений слова и общим количеством слов в документе, вычисляемое с использованием формулы: TF термина X = (Количество вхождений термина в тексте / общее количество слов в тексте);
- IDF — это инверсия частоты, с которой некое слово встречается в других документах, рассчитанная по формуле: IDF термина X = логарифм(Общее число документов / Количество документов, с вхождением термина X).