Coleções Verity
A Verity, Inc. é a empresa por trás do mecanismo de busca corporativa K2 . A tecnologia da Verity foi incluída em vários softwares de terceiros, como ColdFusion (da versão 5 até a versão 9.0.1 ), PeopleSoft , OrCAD e PaperPort .
Uma coleção individual representa um grupo lógico de documentos mais um conjunto de metadados sobre esses documentos. As informações específicas armazenadas para uma coleção incluem vários índices de palavras, uma tabela interna de documentos contendo informações de campos de documentos e ponteiros lógicos para os arquivos de documentos reais.
Fonte: Recursos das coleções - Conteúdo dos índices das coleções
Estrutura de diretórios
Na referência da coleção Verity:
Cada coleção inclui os seguintes subdiretórios:
assists
Contém arquivos que fornecem informações gerais sobre a coleção e auxiliam na otimização de pesquisas, como estender listas de palavras ( *.wld
), o arquivo "sobre" da coleção ( *.abt
) e índices ngram ( *.ngm
).
morgue
Contém arquivos de coleção agendados para exclusão.
parts
Contém a tabela de campos internos ( *.ddd
) e a palavra índice ( *.did
) para cada uma das partições da coleção.
pdd
Contém o arquivo de mapa de partição ( *.pdd
) para a coleção.
style
O conjunto de estilos que configura a coleção. Contém arquivos de estilo de gateway e arquivos de estilo de coleção.
temp
Armazenamento temporário usado pelo Verity Spider e K2 Spider.
topicidx
Contém conjuntos de tópicos indexados, se existirem para esta coleção.
trans
Contém arquivos ( *.trn
) que armazenam informações sobre transações de indexação pendentes.
work
Armazenamento temporário para arquivos sendo processados.
Fonte: Referência da coleção Verity
Dependendo da coleção, algumas das pastas listadas acima podem estar vazias ou ausentes completamente. A style
e as parts
pastas são os mais relevantes.
Partições
Ao indexar documentos, o mecanismo do Verity armazena os metadados do documento em unidades chamadas partições. Cada partição contém metadados (geralmente um índice de palavras completas) para um conjunto de documentos que consiste em algo entre 1 e 64K documentos. O mecanismo do Verity na verdade não copia seu documento; em vez disso, uma partição contém todos os metadados associados aos documentos que os tornam pesquisáveis, incluindo:
A tabela de documentos internos, incluindo campos; alguns campos são definidos por padrão e campos personalizados podem ser definidos, como "Título" e "Autor".
O índice completo de palavras (às vezes chamado de lista de palavras) nos documentos dessa partição.
Fonte: Por dentro de uma coleção Verity - O que são partições?
Cada partição consiste em uma lista de palavras e uma tabela de documentos, nomeadas após um número sequencial de 8 dígitos (por exemplo, 00000001.did
e 00000001.ddd
). Ambos são armazenados como arquivos binários.
Os campos na tabela de documentos são definidos pelos seguintes arquivos de estilo de coleção:
style.ddd
, define os campos usados internamente pelo mecanismo do Verity, identificados por um caractere sublinhado inicial ( _
).
style.sfl
, define campos padrão (muitos dos quais são comentados para limitar o tamanho da tabela de documentos).
style.ufl
, define campos personalizados que não estão incluídos style.sfl
.
O valor de cada campo pode ser preenchido a partir de documentos de origem ou pode ser fornecido explicitamente. Se um campo estiver em branco, ele não foi preenchido.
Fonte: Usando o Browse
Leitura adicional
Visualizando Dados da Partição
Todos os produtos Verity vêm com algumas ferramentas de manutenção e solução de problemas. Entre eles há didump
e browse
. O primeiro pode ser usado para exibir o conteúdo das listas de palavras; o último pode ser usado para exibir campos de documentos indexados.
Squeaky toy
O programa aceita um único parâmetro, que é o caminho de um .ddd
arquivo:
browse.exe "X:\collection\parts\00000001.ddd"
Após abrir com êxito um arquivo, ele exibirá as opções disponíveis:
BROWSE OPTIONS
?) help
q) quit
c) Number of entries in field
_) Toggle viewing fields beginning with '_'
v) Toggle viewing selected fields
##) Display all fields in specified record number
Dispatch/Compound field options:
n) No dispatch
d) Dispatch
s) Dispatch as stream
Contar a quantidade de registros
Para verificar a quantidade de registros indexados, você pode digitar c
e especificar VdkVgwKey
como o campo, que é a chave primária usada para identificar cada entrada na tabela de documentos:
Action (? for help): c
Number of entries in field named: VdkVgwKey
There are (58) entries in the field (VdkVgwKey)
Exibir um registro específico
Todos os índices são baseados em zero. Por exemplo, para obter a primeira entrada, digite 0
e pressione Enter:
Record number: 0
0 _DDFLAG FIX-unsg ( 1) = 0x00
1 _DDVALUE VAR-text ( 0) =
2 _DDVALUE_OF FIX-unsg ( 4) = 0
3 _DDVALUE_SZ FIX-unsg ( 2) = 0
4 _DBVERSION CON-text ( 7) = vdk060
5 _DDDSTAMP FIX-date ( 4) = 17-Apr-2003 01:51:06 pm
6 _DOCIDX FIX-text ( 12) = ☺
7 _PARTDESC FIX-text ( 32) = vdk150.dll (Verity, Inc. Version
8 _STYLE AUT-text ( 58) = C:/Users/Test/Desktop/coll/style/style.ddd
9 _DOCID FIX-unsg ( 4) = 1
10 _SECURITY FIX-unsg ( 4) = 0
12 VdkVgwKey_IX FIX-unsg ( 3) = 53
13 VdkVgwKey_MI WRM-text ( 93) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\rational_clearcase_lt\cc_admin.pdf
14 VdkVgwKey_MX WRM-text ( 75) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
15 VdkVgwKey_OF FIX-unsg ( 4) = 32
16 VdkVgwKey_SZ FIX-unsg ( 2) = 75
17 Exists FIX-unsg ( 1) = 100
18 IsAChunk FIX-unsg ( 1) = 0
19 LargeDoc FIX-unsg ( 1) = 187
20 StartPage FIX-unsg ( 4) = 1
21 EndPage FIX-unsg ( 4) = 0
22 StartPageFrom FIX-unsg ( 4) = 0
23 EndPageAt FIX-unsg ( 4) = 0
24 FileName VAR-text ( 24) = ()(.)(using_search.pdf)
25 PageMap VAR-text ( 4) = D
26 NumPages FIX-unsg ( 4) = 2
27 PermanentID FIX-text ( 32) = 177032712d4a99426aa238bdad896ba2
28 WXEVersion FIX-unsg ( 1) = 2
29 FTS_Title VAR-text ( 41) = Using Search with Rational Documentation
30 FTS_Subject VAR-text ( 0) =
31 FTS_Author VAR-text ( 18) = Rational Software
32 FTS_Keywords VAR-text ( 57) = search, find, full-text Rational Version 20
03.06.00 Beta
33 FTS_Creator VAR-text ( 15) = FrameMaker 7.0
34 FTS_Producer VAR-text ( 34) = Acrobat Distiller 5.0.5 (Windows)
35 FTS_CreationDate FIX-xdat ( 4) = 02-Jul-2002 09:01:00 pm
36 FTS_ModificationDate FIX-xdat ( 4) = 03-Apr-2003 10:08:00 pm
37 DOC DSP-text ( -1) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
38 DOC_FN VAR-text ( 75) = C:/Documents and Settings/khakkara.RATIONAL
/Desktop/DOCCD/using_search.pdf
39 FileName_OF FIX-unsg ( 4) = 32
40 FileName_SZ FIX-unsg ( 2) = 24
41 PageMap_OF FIX-unsg ( 4) = 105
42 PageMap_SZ FIX-unsg ( 2) = 4
43 FTS_Title_OF FIX-unsg ( 4) = 32
44 FTS_Title_SZ FIX-unsg ( 2) = 41
45 FTS_Subject_OF FIX-unsg ( 4) = 0
46 FTS_Subject_SZ FIX-unsg ( 2) = 0
47 FTS_Author_OF FIX-unsg ( 4) = 32
48 FTS_Author_SZ FIX-unsg ( 2) = 18
49 FTS_Keywords_OF FIX-unsg ( 4) = 32
50 FTS_Keywords_SZ FIX-unsg ( 2) = 57
51 FTS_Creator_OF FIX-unsg ( 4) = 90
52 FTS_Creator_SZ FIX-unsg ( 2) = 15
53 FTS_Producer_OF FIX-unsg ( 4) = 56
54 FTS_Producer_SZ FIX-unsg ( 2) = 34
55 DOC_OF FIX-unsg ( 4) = 0
56 DOC_SZ FIX-unsg ( 4) = 4294967295
57 DOC_FN_OF FIX-unsg ( 4) = 32
58 DOC_FN_SZ FIX-unsg ( 2) = 75
59 InstanceID FIX-text ( 32) = 77b25f03d16bf386317bd13c3eba7d5e
60 InstanceID_IX FIX-unsg ( 3) = 22
61 DirID VAR-text ( 6) = ()(.)
62 DirID_IX FIX-unsg ( 3) = 0
63 DirID_OF FIX-unsg ( 4) = 32
64 DirID_SZ FIX-unsg ( 2) = 6
Pressionando Enternovamente, você pode exibir o próximo registro.
Leitura adicional
Obtendo os utilitários do Verity
A maneira mais fácil de obter uma cópia é baixar algum software que os inclua. Por exemplo, o aplicativo PaperPort incluído em algumas impressoras multifuncionais Dell e em versões de teste antigas do ColdFusion .
Instalação manual
Usarei a avaliação de 15 dias do PaperPort como exemplo.
Faça o download da avaliação. Aqui estão os links diretos:
Abra o executável usando o 7-Zip e extraia a PaperPort
pasta em algum lugar.
Abra um prompt de comando e navegue até a pasta que você acabou de extrair:
cd /d "X:\Whatever\PaperPort"
Extraia todos os arquivos executando o instalador do MSI no modo administrativo:
msiexec /a "Nuance PaperPort 14.msi" targetdir="%cd%\Temp"
Prossiga com a instalação. Quando o instalador terminar, você encontrará as ferramentas do Verity na seguinte pasta:
X:\Whatever\PaperPort\Temp\program files\Nuance\PaperPort\Verity\vdk\_nti40\bin
Coleções de amostra
Aqui estão algumas coleções do Verity que encontrei na Web. Eles podem ser úteis para fins de teste ou simplesmente para entender melhor como eles funcionam: