Alguns termos são mais importantes que outros para descrever o conteúdo de um doc. Por exemplo, um termo frequente em todos os documentos pode não ser útil para indexação, enquanto um termo raro pode ser mais importante. Além disso, um termo que ocorre várias vezes em um documento pode fornecer uma melhor ideia do seu conteúdo do que um termo que ocorre poucas vezes.
- A ponderação de termos não visa ranquear documentos, mas sim quantificar a importância de cada termo em cada documento. É feita após a criação do índice invertido e antes de um sistema de RI começar a funcionar.
- Frequência de Termo (TF): A importância de um termo é baseada em sua frequência de ocorrência no documento.
- Frequência Inversa de Documento (IDF): A importância de um termo é inversamente proporcional à quantidade de documentos em que ele aparece.
- TF-IDF: Essa abordagem leva em consideração tanto a frequência de ocorrência de um termo em um documento específico (TF) quanto sua raridade na base de documentos (IDF).
Frequência de Termo (TF)
- O peso wᵢⱼ do termo kᵢ no documento dⱼ é proporcional a frequência fᵢⱼ
$$
w_{ij} \sim f_{ij}
$$
- Podemos então usar a ponderação TF para calcular os pesos wᵢⱼ (peso do termo kᵢ no doc fᵢⱼ):
$$
\begin{equation}
w_{ij} =
\begin{cases}
1 + log f_{ij} & \text{, se } f_{ij} \geq 1 \\
0 & \text{, caso contrário}
\end{cases}
\end{equation}
$$
- O logaritmo é usado para suavizar o crescimento da função.
Frequência Inversa de Documento (IDF)
- Quanto mais raro o termo, maior seu IDF. O IDF de um termo não varia conforme o doc.
- É dado pela seguinte fórmula:
$$
\text{idf}(k_i) = \log\left(\frac{N}{{n_i}}\right)
$$
TF-IDF
- É o esquema de ponderação mais usado. Termos com alto TF têm baixo IDF e vice-versa (com exceções). Alto TF pode ser equilibrado com baixo IDF. Os termos com maior TF-IDF são aqueles com valores intermediários de IDF que aparecem frequentemente.
$$
\text{TF-IDF}(k_i, d_j) = (1 + \log f_{ij}) \cdot \log\left(\frac{N}{{n_i}}\right)
$$