Atualmente, estou criando uma instância no EC2 na qual importar todo o instantâneo Planet.osm de todo o valor de dados da Terra para alguns projetos em que estamos trabalhando. Criei uma instância grande do Ubuntu x64 e anexei bastante armazenamento separado em um volume EBS para o banco de dados Postgres e modifiquei-o para abrigar os dados PGSQL lá.
Agora, o servidor está tendo problemas osm2pgsql
para importar o instantâneo ... Após algumas tentativas com diferentes configurações de memória e outros enfeites, o processo continua emitindo "Killed" depois de passar a maior parte do caminho; depois que foi morto enquanto "passava por caminhos pendentes" e na próxima vez, após ajustar levemente o cache fino, alcançou "caminhos de processamento" antes de travar. Pelo que li, isso geralmente ocorre devido a problemas de memória.
Aqui está minha última tentativa de executar a importação:
osm2pgsql -v -U osm -s -C 4096 -S default.style -d osm /data/osm/planet-latest.osm.bz2
E aqui estão as especificações para uma instância Large no EC2:
Instância grande 7,5 GB de memória, 4 unidades de computação EC2 (2 núcleos virtuais com 2 unidades de computação EC2 cada), 850 GB de armazenamento de instância local, plataforma de 64 bits
Minha pergunta é - existem alguns bons recursos de benchmark para determinar os requisitos de ajuste para osm2pgsql e Postgres? A velocidade da importação não é tão importante para mim, eu gostaria de garantir que o processo seja concluído com segurança, mesmo que demore 4 ou 5 dias ... Eu li " Otimizando a renderização " de Frederick Ramm documento em cadeia "(PDF) do SOTM do ano passado, mas existem outras boas opiniões / recursos?