Há dois obstáculos com os quais você precisa lidar para obter qualidade semelhante à da imagem, a primeira é artística e a segunda é técnica (memória, processamento). Primeiro, suponho que você já resolveu seu problema artístico, você pode criar os modelos, a arte e os shaders etc. (Parcialmente porque não posso responder a problemas de arte)
O principal problema técnico é que, ao voxelizar os modelos criados em um alto nível de detalhe, você terá um grande número de pequenos voxels. Processar e renderizar um grande número de voxels não é trivial. A resposta para isso é chamada Sparse Voxel Octrees
O SVO oferece a capacidade de renderizar modelos altamente detalhados sem processar todos os voxels, mas apenas os visíveis. Observe que, para renderizar o SVO, você precisará usar a projeção de raios em vez da técnica de rasterização usual.
Mais detalhes sobre o SVO neste documento
Aqui está um código-fonte aberto com a implementação de licença BSD do SVO https://code.google.com/p/efficient-sparse-voxel-octrees/
Aqui está um vídeo que explica a renderização baseada em polígonos e em SVO (prós e contras).