Alguns termos são mais importantes que outros para descrever o conteúdo de um doc. Por exemplo, um termo frequente em todos os documentos pode não ser útil para indexação, enquanto um termo raro pode ser mais importante. Além disso, um termo que ocorre várias vezes em um documento pode fornecer uma melhor ideia do seu conteúdo do que um termo que ocorre poucas vezes.

  1. Frequência de Termo (TF): A importância de um termo é baseada em sua frequência de ocorrência no documento.
  2. Frequência Inversa de Documento (IDF): A importância de um termo é inversamente proporcional à quantidade de documentos em que ele aparece.
  3. TF-IDF: Essa abordagem leva em consideração tanto a frequência de ocorrência de um termo em um documento específico (TF) quanto sua raridade na base de documentos (IDF).

Frequência de Termo (TF)

$$ w_{ij} \sim f_{ij} $$

$$ \begin{equation} w_{ij} = \begin{cases} 1 + log f_{ij} & \text{, se } f_{ij} \geq 1 \\ 0 & \text{, caso contrário} \end{cases} \end{equation}

$$

Frequência Inversa de Documento (IDF)

$$ \text{idf}(k_i) = \log\left(\frac{N}{{n_i}}\right) $$

TF-IDF

$$ \text{TF-IDF}(k_i, d_j) = (1 + \log f_{ij}) \cdot \log\left(\frac{N}{{n_i}}\right)

$$