- Representa documentos e consultas como vetores num espaço de alta dimensionalidade. Cada termo é mapeado para uma dimensão no espaço vetorial e a presença ou frequência dos termos nos documentos determina as coordenadas dos vetores. Pesos são não negativos.
- Nesse modelo, a similaridade entre documentos e consultas é calculada através de medidas como a similaridade do cosseno. Quanto mais próximos os vetores, maior a similaridade e maior a relevância do documento para a consulta.
- Supera as limitações do modelo booleano, como a correspondência exata entre consulta e documento e a falta de ranking, utilizando pesos (wᵢⱼ e wᵢq) para os termos nos documentos e nas consultas. Usa-se a ponderação TF-IDF.
- Cada doc dⱼ é representado pelo vetor:
$$
d_j = (w_{1j},\, w_{2j},\,...,\,w_{Tj})
$$
- E uma consulta q é representada por:
$$
q = (w_{1q},\, w_{2q},\,...,\,w_{Tq})
$$
Fórmula
- A similaridade entre o documento dⱼ e a consulta q é obtida através do cosseno do ângulo entre seus vetores:
$$
{{sim}}(d_j, q) = \cos\theta =\frac{\sum\limits_{i=1}^{T} w_{ij} \times w_{iq}}{\sqrt{\sum\limits_{i=1}^{T} w_{ij}^2}\ \times \sqrt{\sum\limits_{i=1}^{T} w_{iq}^2}}
$$
- Por que é utilizado o cosseno do ângulo θ entre os vetores?
Porque sabemos que θ está 0º e 90º. Assim, seu cosseno estará entre 0 e 1. Quanto menor θ, maior seu cosseno.
- Por que sabemos que θ está 0º e 90º?
Os pesos são não negativos, o que faz com que os vetores estejam no octante positivo (no caso de R2, o primeiro T quadrante).
- Pode-se considerar que um doc dⱼ é relevante para uma consulta q se a similaridade entre dⱼ e q é superior a um det. patamar mínimo de similaridade.
- Pode-se utilizar o próprio valor da similaridade para ranquear os docs
Exemplo
Documento |
Conteúdo |
1 |
AAAB |
2 |
AAC |
3 |
AA |
4 |
BB |