Estou executando alguns testes nos formatos de armazenamento disponíveis com Hive e usando Parquet e ORC como opções principais. Eu incluí ORC uma vez com compressão padrão e uma vez com Snappy.
Eu li muitos documentos que afirmam que o Parquet é melhor em complexidade de tempo / espaço em comparação ao ORC, mas meus testes são opostos aos documentos que examinei.
Segue alguns detalhes dos meus dados.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Parquet foi o pior no que diz respeito à compressão da minha mesa.
Meus testes com as tabelas acima produziram os seguintes resultados.
Operação de contagem de linha
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Soma de uma operação de coluna
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Média de uma operação de coluna
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Seleção de 4 colunas de um determinado intervalo usando a cláusula where
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Isso significa que o ORC é mais rápido que o Parquet? Ou há algo que posso fazer para que funcione melhor com o tempo de resposta da consulta e a taxa de compactação?
Obrigado!