Definição: dado uma consulta haveria um conjunto resposta ideal, utópica (apenas docs relevantes), baseando-se em formalismo probabilístico e refinamento iterativo.

Funcionamento:

  1. Um conjunto inicial de documentos é recuperado.
  2. Usuário indica quais os docs são relevantes (~ apenas primeiros do ranking).
  3. Info do passo 2 usada para refinar a descrição do usuário em busca do conjunto resposta ideal.
  4. Volta-se ao passo 1, esperando que a descrição do conjunto resposta ideal melhore

Assim, usuário da um feedback, guiando a resposta do modelo, indo contra a filosofia de RI, posteriormente criou-se esquemas de ref. iterativo automáticos, evitando interv. do user

$$ d_j = (w_{1j},\, w_{2j},\,...,\,w_{Tj}) $$

$$ {R} = \text {conj. de docs relevantes (ideal)} \\ \overline {R} = \text {conj. de docs não relevantes} \\ P\left(k_i \mid {R}\right) = \text {prob de selecionar aleatoriamente } {k_j} \text{ em conj. R de docs relevantes}

$$

$$ \operatorname{sim}\left(d_j, q\right) \sim \sum_{i=1}^T w_{i j} w_{i q}\left(\log \frac{P\left(k_i \mid R\right)}{1-P\left(k_i \mid R\right)}+\log \frac{1-P\left(k_i \mid \bar{R}\right)}{P\left(k_i \mid \bar{R}\right)}\right) \\ \text{calcula-se apenas parcelas referentes a termos que apareçam em ambos q e dj} $$

$$ P\left(k_i \mid {R}\right)= 0,5 \\ \begin{align*} P(k_i \mid \overline{R}) = \frac{n_i}{N} \rightarrow \frac{\text{Nº de docs com termo k}}{\text{Nº total de docs}} \end{align*} $$

Vantagens e Desvantagens

Vantagens Desvantagens
Documentos ordenados em ordem decrescente de probabilidade de relevância. Necessidade de “adivinhar” valores iniciais para $P\left(k_i \mid {R}\right)$ e $P(k_i \mid \overline{R})$
– No entanto, essa probabilidade pode ser incorretamente
estimada e depende de fatores externos. Não leva em conta ponderação de termos, em especial a frequência dos termos em um documento (TF)
Refinamento iterativo pode captar características pessoais do
usuário. Falta de normalização pelo tamanho do documento.
– Todavia, na prática, o modelo é implementado sem a realimentação do usuário. Refinamento iterativo pode produzir resultados ruins se for
mau influenciado pelo resultado da primeira iteração.