Parece-me que seu problema é que você está tentando testar métricas de desempenho que não são bem suportadas no banco de dados subjacente. Isso torna muito difícil comparar o desempenho entre os sistemas, porque as abordagens subjacentes são muito diferentes. Eu não acho que é possível fazer comparações maçãs com maçãs, assim como eu não acho que você possa fazer uma comparação maçãs com maçãs das abordagens do tipo ORDBMS às abordagens do tipo RDBMS. As preocupações com o desempenho são muito diferentes e, se a Stonebraker estiver certa, a otimização de um ORDBMS para testes TPC-C perde o objetivo; então, para sistemas que estão ainda mais distantes, isso será impossível. (Eu acho que ele está lá, apenas onde a funcionalidade do ORDBMS entra em jogo.)
Eu acho que o que você precisa para ser honesto é ver como você usaria cada sistema e criar uma ferramenta de benchmark com base na abordagem que você adotaria em cada um. Em seguida, você pode dizer, pelo menos para esse fluxo de trabalho, que o benchmark mostra algo específico. Não vejo como você pode generalizar no entanto. Você pode executá-lo ainda mais em um criador de perfil para obter informações adicionais sobre o tempo gasto no teste em vários mecanismos.
No entanto, é muito difícil obter benchmarking do banco de dados significativo nas melhores circunstâncias e, quando você está comparando sistemas diferentes, torna-se impossível generalizar.