Um dos principais exemplos usados para demonstrar o poder do MapReduce é o benchmark Terasort . Estou tendo problemas para entender os fundamentos do algoritmo de classificação usado no ambiente MapReduce.
Para mim, a classificação envolve simplesmente determinar a posição relativa de um elemento em relação a todos os outros elementos. Assim, a classificação envolve comparar "tudo" com "tudo". Seu algoritmo de classificação médio (rápido, bolha, ...) simplesmente faz isso de maneira inteligente.
Na minha opinião, dividir o conjunto de dados em muitas partes significa que você pode classificar uma única parte e, então, ainda terá que integrar essas partes no conjunto de dados totalmente classificado "completo". Dado o conjunto de dados de terabytes distribuídos em milhares de sistemas, espero que seja uma tarefa gigantesca.
Então, como isso é realmente feito? Como funciona esse algoritmo de classificação MapReduce?
Obrigado por me ajudar a entender.