Definição: dado uma consulta haveria um conjunto resposta ideal, utópica (apenas docs relevantes), baseando-se em formalismo probabilístico e refinamento iterativo.
Funcionamento:
Assim, usuário da um feedback, guiando a resposta do modelo, indo contra a filosofia de RI, posteriormente criou-se esquemas de ref. iterativo automáticos, evitando interv. do user
$$ d_j = (w_{1j},\, w_{2j},\,...,\,w_{Tj}) $$
$$ {R} = \text {conj. de docs relevantes (ideal)} \\ \overline {R} = \text {conj. de docs não relevantes} \\ P\left(k_i \mid {R}\right) = \text {prob de selecionar aleatoriamente } {k_j} \text{ em conj. R de docs relevantes}
$$
$$ \operatorname{sim}\left(d_j, q\right) \sim \sum_{i=1}^T w_{i j} w_{i q}\left(\log \frac{P\left(k_i \mid R\right)}{1-P\left(k_i \mid R\right)}+\log \frac{1-P\left(k_i \mid \bar{R}\right)}{P\left(k_i \mid \bar{R}\right)}\right) \\ \text{calcula-se apenas parcelas referentes a termos que apareçam em ambos q e dj} $$
$$ P\left(k_i \mid {R}\right)= 0,5 \\ \begin{align*} P(k_i \mid \overline{R}) = \frac{n_i}{N} \rightarrow \frac{\text{Nº de docs com termo k}}{\text{Nº total de docs}} \end{align*} $$
Vantagens | Desvantagens |
---|---|
Documentos ordenados em ordem decrescente de probabilidade de relevância. | Necessidade de “adivinhar” valores iniciais para $P\left(k_i \mid {R}\right)$ e $P(k_i \mid \overline{R})$ |
– No entanto, essa probabilidade pode ser incorretamente | |
estimada e depende de fatores externos. | Não leva em conta ponderação de termos, em especial a frequência dos termos em um documento (TF) |
Refinamento iterativo pode captar características pessoais do | |
usuário. | Falta de normalização pelo tamanho do documento. |
– Todavia, na prática, o modelo é implementado sem a realimentação do usuário. | Refinamento iterativo pode produzir resultados ruins se for |
mau influenciado pelo resultado da primeira iteração. |