Etapas na Construção de um Sistema de Busca:
1. Definir a base de documentos
- Uma base de dados geralmente é textual, e pode ser necessário construir algum tipo de aplicação para coletar documentos de repositórios ou da internet.
- Define-se o modelo de texto e quais elementos poderão ser recuperados: palavras, parágrafos, páginas ou o documento inteiro.
- Também é necessário definir as operações sobre a base, como a remoção de palavras vazias (stop words) e a extração de radicais, entre outras.
2. Indexação da base de documentos
- Objetivo: permitir busca rápida sobre a base, geralmente utilizando-se índices invertidos, permitindo a recuperação eficiente das informações
3. Definição de um modelo para elaboração de consultas e para responder as mesmas
- O usuário pode especificar uma consulta para análise sintática e expansão com sinônimos e/ou termos relacionados.
- A partir do índice, obtém-se uma lista de documentos a serem recuperados.
- Os documentos são ranqueados segundo sua suposta relevância ao usuário e apresentados seguindo a ordem do ranking por um dos modelos de RI.
Índice Invertido
- Objetivo: construir uma estrutura de dados para identificar rapidamente documentos com um termo específico.
- Lista de palavras distintas da base de dados (após remoção de stop words e extração de radicais).
- Listamos os documentos onde cada palavra da base aparece, junto com a quantidade de vezes em que ela ocorre em cada documento.