Lucene trabalha com frequência de termo e frequência de documento inverso . Ele cria um índice de mapeamento de cada palavra com o documento e sua contagem de frequência, que nada mais é do que o índice inverso do documento.
Exemplo :
Arquivo 1: Memória de acesso aleatório é a memória principal.
Arquivo 2: os discos rígidos são memória secundária.
Lucene cria um índice reverso parecido com
Arquivo 1:
Termo: Aleatório
Frequência: 1
Posição: 0
Termo: Memória
Frequência: 2
Cargo: 3
Cargo: 6
Portanto, é capaz de pesquisar e recuperar o conteúdo pesquisado rapidamente. Quando há muitas correspondências para a consulta de pesquisa, ele exibe o resultado com base no peso. Considere a consulta de pesquisa "Memória principal", ela pesquisa por todas as 4 palavras individualmente e o resultado seria como,
a Principal
Arquivo 1: Frequência - 1
Memória
Arquivo 1: Frequência - 2
Arquivo 2: Frequência - 1
O resultado seria Arquivo1 seguido por Arquivo2 . Para não se deixar levar por pesos nas palavras mais comuns, como 'e', 'ou', 'o', ele considera a frequência inversa do documento (ou seja, 'diminui o peso da palavra mais popular no conjunto de documentos).