Como Jimmy Lin e Chris Dyer apontam no primeiro capítulo de seu livro sobre mineração de texto intensiva em dados com o MapReduce , em grandes escalas de dados, o desempenho de diferentes algoritmos converge para que as diferenças de desempenho praticamente desapareçam. Isso significa que, dado um conjunto de dados grande o suficiente, o algoritmo que você deseja usar é o que é computacionalmente mais barato. É apenas em escalas de dados menores que as diferenças de desempenho entre algoritmos são importantes.
Dito isto, o livro ( link acima) e o Mining of Massive Datasets de Anand Rajaraman, Jure Leskovec e Jeffrey D. Ullman provavelmente são dois livros que você também precisará conferir, especialmente porque estão diretamente relacionados ao MapReduce para fins de mineração de dados.