Estou pensando em usar uma instalação RAID0 para um de nossos clusters do SQL Server. Vou descrever a situação e procurar por que isso pode ser uma má idéia. Além disso, se alguém com casos de uso, documentos técnicos ou outra documentação puder me indicar esse tópico, seria ótimo.
Temos 3 servidores em 2 datacenters que fazem parte de um cluster SQL. Todos eles estão executando o SQL Server em um grupo de disponibilidade. O primário tem uma réplica bem ao lado dele e outra no outro datacenter. Eles estão executando replicação síncrona com failover automático. Todas as unidades são SSDs de classe empresarial. Eles estarão executando o SQL Server 2017 ou 2019.
Estou pensando que haveria vários benefícios em executá-los em matrizes RAID0 sobre outros métodos, com poucas, se houver, desvantagens reais. O único aspecto negativo que estou vendo atualmente é a falta de redundância no servidor principal e, portanto, aumenta a falha. Como profissionais:
Se uma unidade falhar, em vez de executar em um estado lento e degradado até que alguém receba um aviso e aja manualmente, o servidor falhará imediatamente para um secundário, mantendo a capacidade operacional total. Isso terá um benefício adicional de nos notificar sobre um failover, para que possamos investigar a causa mais cedo.
Reduz a chance de falha geral por capacidade de TB. Como não precisamos de unidades de paridade ou espelho, reduzimos o número de unidades por matriz. Com menos unidades, há menos chance total de uma falha na unidade.
É mais barato. Necessitar de menos unidades para a capacidade necessária obviamente custa menos.
Sei que esse não é o pensamento comercial convencional, mas há algo que não estou considerando? Eu adoraria qualquer entrada a favor ou contra.
Não estou tentando fazer isso para obter ganhos de desempenho de consulta, embora, se houver algum significativo, fique à vontade para apontá-lo. Minha principal preocupação é não considerar ou resolver um problema de confiabilidade ou redundância em que não pensei.
O sistema operacional está em uma unidade espelhada separada, portanto, o próprio servidor deve permanecer ativo. Uma dessas unidades pode ser substituída e novamente espelhada. É pequeno e não há nenhum arquivo de banco de dados além dos bancos de dados do sistema. Não consigo imaginar que demore mais do que minutos. Se uma das matrizes de dados falhar, substituímos a unidade, reconstruímos a matriz, restauramos e ressincronizamos com o AG. Na minha experiência pessoal, a restauração foi MUITO mais rápida que a reconstrução de uma unidade RAID5. Como nunca tive uma falha no RAID1, não sei se essa reconstrução seria mais rápida ou não. As restaurações seriam provenientes de um backup e encaminhadas para corresponder ao primário, portanto, o aumento de carga no servidor principal deve ser muito mínimo, sincronizando apenas os últimos minutos dos logs com a réplica recuperada.