Em muitas situações da vida real em que você aplica o MapReduce, os algoritmos finais acabam sendo várias etapas do MapReduce.
ou seja, Mapa1, Reduzir1, Mapa2, Reduzir2 e assim por diante.
Portanto, você tem a saída da última redução necessária como entrada para o próximo mapa.
Os dados intermediários são algo que você (em geral) não deseja manter depois que o pipeline for concluído com êxito. Também porque esses dados intermediários são, em geral, alguma estrutura de dados (como um 'mapa' ou um 'conjunto'), você não deseja colocar muito esforço na escrita e leitura desses pares de valores-chave.
Qual é a maneira recomendada de fazer isso no Hadoop?
Existe um exemplo (simples) que mostra como lidar com esses dados intermediários da maneira correta, incluindo a limpeza posterior?