Ok, nossa nova compilação está tendo picos de 100% da CPU em cada servidor em intervalos aleatórios. Por longos períodos, o site fica totalmente sem resposta - em horários de pico, quando pessoas de diferentes países acessam o site, etc.
Examinamos perfmom, criadores de perfil de memória, CLR, sql, Red Gate Ants Profiler, tentamos testes de carga no UAT - mas não conseguimos reproduzir o problema. Isso pode significar que apenas milhares de usuários que acessam o site ativo fazem com que isso aconteça.
Um padrão que notamos foi que o novo código - a compilação quebrada - na verdade usa muito menos threads.
Também estamos usando a primavera para o COI - isso tem reputação na cama?
Para piorar as coisas, não podemos implantar para viver devido ao impacto nos negócios - portanto, não podemos restringir o problema ao subconjunto dos novos recursos que adicionamos.
Nós realmente somos destruídos - alguém tem alguma cicatriz de batalha que pode nos salvar algumas vidas?