A velocidade é a razão mais comum pela qual isso não é feito. Na verdade, você pode fazer o que propõe, se você criar seu próprio sistema operacional, isso será muito lento por razões arquitetônicas. Portanto, a suposição de que é mais rápido é um pouco falha. Mesmo que fosse mais rápido, seria menos eficiente em termos de desenvolvimento (como um aumento de velocidade de 1% por 10 vezes o trabalho).
Copiar os dados da CPU para a placa gráfica é uma operação relativamente lenta. Quanto menos você copiar, mais rápida será a velocidade de atualização. Idealmente, você teria a maioria dos dados em sua GPU e atualizaria apenas pequenos pedaços de dados. Há um mundo de diferença entre copiar mais de 320x200 pixels em comparação com 1920x1200 ou mais. Veja o número de pixels que você precisa atualizar cresce quadraticamente quando os lados crescem.
Exemplo: é mais barato dizer à GPU para mover a imagem 10 pixels para a direita do que copiar os pixels manualmente para a memória de vídeo em diferentes locais.
Por que você precisa passar por uma API? Simplesmente porque não é o seu sistema. O sistema operacional não pode permitir que você faça o que quiser por motivos de segurança. Em segundo lugar, porque o sistema operacional precisa abstrair o hardware, até o sistema operacional está conversando com o driver através de algum sistema abstraído, uma API, se você preferir.
Na verdade, eu classificaria a probabilidade de seu sistema ser mais rápido, se você fizer todo o trabalho sozinho, próximo de zero. É um pouco como comparar C e montagem. Claro que você pode escrever montagem, mas os compiladores são bastante inteligentes hoje em dia e otimizam cada vez melhor. É difícil melhorar manualmente, mesmo que você consiga que sua produtividade caia pelo ralo.
PS: Uma API não torna impossível fazer essa atualização, como nos jogos antigos. É apenas ineficiente isso é tudo. Não por causa da mente da API, mas porque é um período ineficiente.
PPS: É por isso que eles estão lançando o Vulkan.