Atualmente, estou tentando executar algumas consultas em um despejo de dados dos comentários do Stack Overflow. Aqui está a aparência do esquema:
CREATE TABLE `socomments` (
`Id` int(11) NOT NULL,
`PostId` int(11) NOT NULL,
`Score` int(11) DEFAULT NULL,
`Text` varchar(600) NOT NULL,
`CreationDate` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
`UserId` int(11) NOT NULL,
PRIMARY KEY (`Id`),
KEY `idx_socomments_PostId` (`PostId`),
KEY `CreationDate` (`CreationDate`),
FULLTEXT KEY `Text` (`Text`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
Fiz essa consulta na tabela e ela ficou incrivelmente lenta (ela possui 29 milhões de linhas, mas possui um índice de texto completo):
SELECT *
FROM socomments
WHERE MATCH (Text) AGAINST ('"fixed the post"' IN BOOLEAN MODE)
Então eu criei um perfil, cujos resultados são:
|| Status || Duration ||
|| starting || 0.000058 ||
|| checking permissions || 0.000006 ||
|| Opening tables || 0.000014 ||
|| init || 0.000019 ||
|| System lock || 0.000006 ||
|| optimizing || 0.000007 ||
|| statistics || 0.000013 ||
|| preparing || 0.000005 ||
|| FULLTEXT initialization || 207.1112 ||
|| executing || 0.000009 ||
|| Sending data || 0.000856 ||
|| end || 0.000004 ||
|| query end || 0.000004 ||
|| closing tables || 0.000006 ||
|| freeing items || 0.000059 ||
|| logging slow query || 0.000037 ||
|| cleaning up || 0.000046 ||
Como você pode ver, ele passa muito tempo na inicialização do FULLTEXT. Isso é normal? Se não, como eu consertaria isso?
id_group 2
eid_group 23
. Com isso, sua pesquisa dentro da tabela principal e limita sua consulta aos intervalos de ID 2.000 a 2.999 e 23.000 a 23.999. É claro que o segundo resultará em mais resultados, conforme necessário, à medida que você mistura todos os comentários, criando novas combinações de palavras-chave, mas, finalmente, deve acelerar a coisa toda. É claro que duplica o uso do espaço em disco. Novos comentários devem ser CONCATADOS na tabela de grupo.