De acordo com Hadoop - The Definitive Guide
Os registros lógicos que FileInputFormats definem geralmente não se encaixam perfeitamente em blocos HDFS. Por exemplo, os registros lógicos de um TextInputFormat são linhas, que cruzarão os limites do HDFS com mais freqüência. Isso não tem relação com o funcionamento do seu programa - as linhas não são perdidas ou quebradas, por exemplo - mas vale a pena conhecer, pois significa que os mapas locais de dados (ou seja, mapas que estão sendo executados no mesmo host que seus dados de entrada) fará algumas leituras remotas. A leve sobrecarga que isso causa normalmente não é significativa.
Suponha que uma linha de registro seja dividida em dois blocos (b1 e b2). O mapeador que processa o primeiro bloco (b1) notará que a última linha não tem um separador EOL e busca o restante da linha do próximo bloco de dados (b2).
Como o mapeador que processa o segundo bloco (b2) determina que o primeiro registro está incompleto e deve processar a partir do segundo registro no bloco (b2)?
LineReader.readLine
função, não acho que seja relevante para a sua pergunta, mas posso adicionar mais detalhes se necessário.