Definição: refere-se a aferir a qualidade da resposta de sistemas de busca

Motivos: saber se o sistema de RI está cumprindo seu papel e como está desempenhando; comparar com outros sistemas; avaliar se modificações no modelo de RI e/ou no ranqueamento trazem melhorias ao sistema; saber com quais tipos de base de dados/consultas o sistema/modelo pode funcionar melhor

Subjetivo, associa-se métricas aos resultados da consulta por: simplicidade, poder repetir experimentos diversas vezes, custo relativamente baixo.

Metodologia: Comparar o resultado produzido por um sistema de RI com o produzido por especialistas humanos, adotando coleções de referência: bases de docs de referência onde especialistas já apontaram quais seriam os docs relevantes para determinadas consultas específicas.

R = conj. de docs relevantes (especialistas) A = conj. resposta do sistema (algoritmo RI)

Precisão: fração dos docs recuperados que é relevante (naquilo que foi respondido, quanto foi acertado). Se remete ao quanto os resultados da busca são uteis, mas não é medida completa para avaliação:

$$ \text {precisão} = p = \frac{ \mid R\, \cap A \mid}{\mid A \mid} $$

Revocação: fração dos docs relevantes que é recuperada. Daquilo que os especialistas consideraram relevantes, qual a qtde foi possível recuperar. Se refere a quão completos os resultados estão.

$$ \text {revocação} = r = \frac{ \mid R\, \cap A \mid}{\mid A \mid} $$

Considerações
É comum comparar diferentes sistemas plotando suas curvas de revocação-precisão média no mesmo gráfico Em alguns casos, costuma-se adotar a área abaixo da curva (AVC) como medida para se comparar os sistemas. Valores maiores para a área indicam maior qualidade
Empiricamente, tem-se observado que, ao se aumentar o nível de revocação, o nível de precisão diminui; Algoritmos com maiores níveis de precisão costumam ser preferíveis
para a WEB. Em contextos mais específicos, como área médica ou jurídica, níveis maiores de revocação podem ser preferíveis
A precisão é máxima quando o conjunto A-R (falsos positivos) é vazio A revocação é máxima quando o conjunto R-A (falsos negativos) é
vazio

$$ \bar{p}\left(r_j\right)=\sum_{i=1}^{N_q} \frac{p_i\left(r_j\right)}{N_q} $$