O Pig permite carregar dados e código do usuário em qualquer ponto do pipeline. Isso pode ser particularmente importante se os dados forem de fluxo contínuo, por exemplo, dados de satélites ou instrumentos.
O Hive, que é baseado em RDBMS, precisa que os dados sejam primeiro importados (ou carregados) e depois disso possam ser trabalhados. Portanto, se você estivesse usando o Hive no fluxo de dados, teria que continuar preenchendo intervalos (ou arquivos) e usar o hive em cada intervalo preenchido , enquanto usava outros intervalos para continuar armazenando os dados recém-chegados.
Porco também usa avaliação preguiçosa. Permite maior facilidade de programação e pode-se usá-lo para analisar dados de maneiras diferentes com mais liberdade do que em uma linguagem semelhante ao SQL como o Hive. Portanto, se você realmente deseja analisar matrizes ou padrões em alguns dados não estruturados que você possui e deseja fazer cálculos interessantes sobre eles, com o Pig, você pode percorrer uma distância razoável, enquanto com o Hive, precisa de algo mais para brincar com os resultados.
O Pig é mais rápido na importação de dados, mas mais lento na execução real do que em uma linguagem compatível com RDBMS como o Hive.
O Pig é bem adequado para paralelização e, portanto, possivelmente possui uma vantagem para sistemas em que os conjuntos de dados são enormes, ou seja, em sistemas nos quais você se preocupa mais com a taxa de transferência de seus resultados do que com a latência (o tempo para obter qualquer dado específico de resultado).