Grandes? Demorou quase 8 anos para a Microsoft fazer o CSS2 simples mal funcionar no IE7, enquanto o suporte ao DOM1 em javascript ainda está quebrado no IE8. Isso é especificação de 1998.
É por isso que você não verá uma ampla adoção do HTML5 em multimídia nos próximos 20 anos. É muito complicado, inacabado, o desempenho é péssimo. Até coisas simples como websockets são desativadas por motivos de segurança.
Algumas coisas não funcionam como um padrão aberto. Está executando jogos ou MM em um ambiente que deve funcionar no thin client e oferecer suporte à degradação total? Isso é loucura.
EDITADO: Sim, primeiro é a supercomplicação. Você tem um plug-in flash que é igual em todos os navegadores e funciona da mesma maneira todas as vezes. Essa é uma solução simples e eficaz. Em uma interface, você faz a alteração uma vez, recompila e viola - você possui um plug-in para todos os navegadores do mercado, utilizando alguma camada intermediária entre o navegador e o plug-in.
Por outro lado, você tem 10 navegadores e deseja adicionar, por exemplo. suporte multimídia / filme. Isso significa que toda empresa terá que implementar o media player do zero, ao lado de todos que desejam algo diferente. A Apple quer o H.264 para que os proprietários do site paguem royalties pelo codec para a exibição de filmes, o Google e a Mozilla desejam o VP8 para que seus negócios não sejam afetados pelas patentes da Apple etc.
Então, acaba implementando coisas que todo mundo quer (enquanto o VP8 ou o H.264 faria, para começar).
Portanto, antes que eles possam superar suas diferenças, a Adobe implementará o H.264 em flash, use a pilha DRM e streaming já disponível e ... está pronto. 3 a 4 meses e você possui uma tecnologia funcional com taxa de adoção de 98%.
Simples, uma empresa decide, para que eles possam promover mudanças maciças rapidamente e não terão que adicionar "idéias" de outros 20 membros do "órgão de padronização". Ao lado do HTML5, talvez esteja entre 10 e 15 anos atrás do flash, em multimídia. A diferença só vai aumentar. No MAX avant recente, você podia ver os controladores de jogos e aplicativos de corrida em 3D em tela cheia, rodando em flash em FPS completo, suporte à aceleração de hardware e assim por diante. Enquanto isso, o mozilla agora pode reproduzir vídeo H.246 sem travar o navegador, mas apenas reproduzir. Ainda falta alguma funcionalidade adicional (como tela cheia, streaming, avanço rápido)!
Ao lado, acho que o W3C está apenas desperdiçando recursos, tentando fazer do HTML5 uma cópia incompleta do flash. Não vai funcionar ... é como tentar fazer do flash uma cópia do HTML. Não vai funcionar.