Executando consultas por frases

A partir de um índice de termos/documentos só é possível efetuar consultas de ocorrência de termos e filtros com operadores AND, OR e NOT. Entretanto, o que é preciso para executar uma consulta por presidente do Brasil? A forma mais simples, é converter essa consulta em presidente AND do AND Brasil (o do pode ser removido se quiser remover stop words). O detalhe é que essa consulta vai retornar qualquer documento que contenha presidente e Brasil, mas que não não fale necessariamento do presidente do Brasil.... [Continue lendo]

Algoritmos para consultar em índices

Uma das vantagens do índice invertido é a possibilidade de otimizar os algoritmos utilizados nas consultas. Esses algoritmos já são implementados por set no python, mas não garantem a sequência dos ids dos documentos e também não permitem algumas otimizações. Portanto, é necessário passar por esses algoritmos para ver as extensões e como elas podem ajudar. intersecção de conjuntos Uma consulta casa AND blumenau precisa efetuar a intersecção entre os documentos de casa e os documentos de blumenau.... [Continue lendo]

Índice invertido (inverted index)

A matriz de incidência termo-documento é uma das formas de representar um índice de termos por documento. Mesmo usando o conceito de uma matriz esparsa, essa estrutura pode crescer muito para ser usada em memória. Uma alternativa para esse caso é usar um índice invertido (inverted index). Dados os seguintes documentos como exemplo: Uma casa à venda em Blumenau Vendo terreno em Gaspar Alugo apartamento em Indaial A matriz de incidência é:... [Continue lendo]