Aqui está a explicação diretamente da fonte (quase)
no min 22:03
Vale a pena assistir!
Basicamente, e de acordo com Douglas Merrill, ex-CTO do Google, é assim:
1) Você escreve uma palavra (incorreta) no google
2) Você não encontra o que queria (não clique em nenhum resultado)
3) Você percebe que digitou incorretamente a palavra e reescreve-a na caixa de pesquisa.
4) Você encontra o que deseja (clique nos primeiros links)
Esse padrão multiplicado milhões de vezes, mostra quais são os erros de ortografia mais comuns e quais são as correções mais "comuns".
Dessa forma, o Google pode quase instantaneamente oferecer correção ortográfica em todos os idiomas.
Isso também significa que, se durante a noite todos começarem a soletrar a noite como "nigth", o Google sugeriria essa palavra.
EDITAR
@ Thomashoutter: Douglas descreve isso como "aprendizado de máquina estatística".
Eles sabem quem corrige a consulta, porque sabem qual consulta vem de qual usuário (usando cookies)
Se os usuários executam uma consulta e apenas 10% dos usuários clicam em um resultado e 90% retornam e digitam outra consulta (com a palavra corrigida) e, dessa vez, que 90% clica em um resultado, eles sabem que encontraram uma correção.
Eles também podem saber se essas são consultas "relacionadas" de duas diferentes, porque possuem informações de todos os links que mostram.
Além disso, agora eles estão incluindo o contexto na verificação ortográfica, para que possam sugerir palavras diferentes, dependendo do contexto.
Veja esta demonstração do Google Wave (@ 44m 06s) que mostra como o contexto é levado em consideração para corrigir automaticamente a ortografia.
Aqui é explicado como esse processamento de linguagem natural funciona.
E finalmente, aqui está uma demonstração impressionante do que pode ser feito adicionando tradução automática (@ 1h 12m 47s) à mistura.
Adicionei âncoras de minutos e segundos aos vídeos para pular diretamente para o conteúdo. Se eles não funcionarem, tente recarregar a página ou rolar manualmente até a marca.