As respostas anteriores a esta pergunta cobriram a maioria dos pontos mais importantes, mas quero acrescentar um comentário com relação a isso:
MKL tem vantagem sobre algumas tarefas?
A equipe do MKL está em uma posição única para conhecer os futuros conjuntos de instruções da Intel e suas implementações em processadores específicos. Além disso, eles têm acesso a simuladores de processador proprietários e hardware de pré-produção que ninguém fora da Intel pode usar. Assim, a MKL tem vantagem no que diz respeito ao grau de conhecimento sobre produtos futuros e quando eles obtêm esse conhecimento. Portanto, não deve ser muito surpreendente se eles produzirem melhores implementações do BLAS do que qualquer outra pessoa, pelo menos no início da vida útil de um produto com novos recursos.
Por outro lado, a Intel tem sido bastante aberta sobre o conjunto de instruções do AVX-512 e forneceu o Emulador de desenvolvimento de software Intel® (SDE) que permite aos desenvolvedores emular as instruções do AVX-512 em processadores que não as suportam nativamente. Por esse motivo, não será de surpreender se as implementações de código aberto de alta qualidade do BLAS estiverem disponíveis para os processadores Intel que suportam o AVX-512 no início da vida útil desses produtos.
Obviamente, quanta diferença faz para ter informações detalhadas sobre um processador específico versus os fundamentos de algoritmos de álgebra linear densa não é totalmente resolvido. A citação a seguir aborda esse problema melhor do que eu:
Em teoria, não há diferença entre teoria e prática. Mas, na prática, existe.
Divulgação completa: Trabalho para a Intel.