TF*IDF - что это - значение термина

TF*IDF

Численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции.

Используется для оценки важности слова в контексте документа, который является частью коллекции документов.

Формула: TF-IDF термина X = (TF термина X) * (IDF термина X), где

  • TF — это отношение между количеством вхождений слова и общим количеством слов в документе, вычисляемое с использованием формулы: TF термина X = (Количество вхождений термина в тексте / общее количество слов в тексте);
  • IDF — это инверсия частоты, с которой некое слово встречается в других документах, рассчитанная по формуле: IDF термина X = логарифм(Общее число документов / Количество документов, с вхождением термина X).