Eu tenho uma máquina de 24 núcleos com 94.6GiB de RAM executando o servidor Ubuntu 10.04. A caixa está apresentando um alto% de iowait, diferente de outro servidor que temos (4 núcleos) executando os mesmos tipos e quantidades de processos. Ambas as máquinas estão conectadas a um servidor de arquivos VNX Raid, a máquina de 24 núcleos por meio de 4 placas FC e a outra por meio de placas Ethernet de 2 gigabits. Atualmente, a máquina de 4 núcleos supera a de 24 núcleos, possui maior uso de CPU e% iowait mais baixo.
Em 9 dias de atividade, o% iowait fica em média em 16% e é rotineiramente acima de 30%. Na maioria das vezes, o uso da CPU é muito baixo, cerca de 5% (devido ao alto iowait). Há ampla memória livre.
Uma coisa que não entendo é por que todos os dados parecem passar pelo dispositivo sdc, em vez de passar diretamente pelos movedores de dados:
avg-cpu: %user %nice %system %iowait %steal %idle
6.11 0.39 0.75 16.01 0.00 76.74
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 0.00 0.00 0.00 1232 0
sdb 0.00 0.00 0.00 2960 0
sdc 1.53 43.71 44.54 36726612 37425026
dm-0 0.43 27.69 0.32 23269498 268696
dm-1 1.00 1.86 7.74 1566234 6500432
dm-2 0.96 1.72 5.97 1442482 5014376
dm-3 0.49 9.57 0.18 8040490 153272
dm-4 0.00 0.00 0.00 1794 24
dm-5 0.00 0.00 0.00 296 0
Outra peça do quebra-cabeça é que as tarefas frequentemente entram no modo de suspensão ininterrupta (na parte superior), provavelmente também devido à suspensão do io.
O que posso olhar para ajudar a diagnosticar o problema? Por que todos os dados estão passando por / dev / sdc? Isso é normal?
ATUALIZAR:
A conexão de rede e a capacidade de leitura / gravação do VNX foram descartadas como gargalos. Podemos atingir velocidades de 800 MB / s com as 4 NICs ligadas (round-robin). As placas Fibre Channel ainda não estão sendo usadas. O VNX é capaz de lidar com E / S (discos RAID6, 30x2TB 7.2kRPM por pool em dois pools (60 discos no total), cerca de 60% de leitura).
Ignore acima sobre dm e sdc, todos eles são discos internos e não fazem parte do problema.
Achamos que o problema pode estar nas montagens nfs ou TCP (temos de 5 montagens a 5 partições no VNX), mas não sabemos exatamente o que. Algum conselho?
dm
significa mapeador de dispositivo, não movedor de dados. Essa pergunta provavelmente seria muito melhor em Falha no servidor.