$$ d_j = (w_{1j},\, w_{2j},\,...,\,w_{Tj}) $$

$$ q = (w_{1q},\, w_{2q},\,...,\,w_{Tq}) $$

Fórmula

$$ {{sim}}(d_j, q) = \cos\theta =\frac{\sum\limits_{i=1}^{T} w_{ij} \times w_{iq}}{\sqrt{\sum\limits_{i=1}^{T} w_{ij}^2}\ \times \sqrt{\sum\limits_{i=1}^{T} w_{iq}^2}}

$$

Porque sabemos que θ está 0º e 90º. Assim, seu cosseno estará entre 0 e 1. Quanto menor θ, maior seu cosseno.

Os pesos são não negativos, o que faz com que os vetores estejam no octante positivo (no caso de R2, o primeiro T quadrante).

Exemplo

Documento Conteúdo
1 AAAB
2 AAC
3 AA
4 BB