O Google possui várias tecnologias que eles desenvolveram internamente para armazenar essas enormes massas de dados. Usando essas tecnologias, eles podem realmente adicionar cargas de caminhões de discos rígidos ao cluster sem tempo de inatividade, mas sim, eles ainda precisam de pessoas fazendo isso.
Tanto quanto sei no blog do Google, as duas partes principais são o sistema de arquivos do Google, que é um sistema de arquivos distribuído que pode ser dimensionado para uma escala realmente grande: sistema de arquivos do Google
E no topo do sistema de arquivos do Google, eles têm o Big Table, que é algum tipo de banco de dados de valor-chave e também se transforma em enormes escalas: Big Table
Para garantir alta disponibilidade, tudo é redundante muitas vezes, mais de 3 vezes na maioria dos casos.