Por que a AMD colocar um SSD em uma placa de GPU reduziu tanto a latência?

A AMD apareceu recentemente nas notícias com uma interessante placa Radeon Pro com alguns SSDs M2 nela.

Como observam algumas das histórias mais detalhadas ( aqui ou aqui , por exemplo), os benefícios podem não resultar principalmente de alta largura de banda (os M2 são apenas de 4 pistas PCIe cada, portanto o conector de 16 pistas da placa deve ter mais), mas de baixa latência. Esta história inclui a afirmação "isso resulta em uma latência de acesso à memória 10x mais baixa".

Minha pergunta é basicamente: por que os SSDs conectados à PCIe na placa GPU têm significativamente menos latência do que a GPU que acessa a RAM do sistema principal ou os dispositivos de armazenamento no barramento PCIe do sistema? O que há no sistema principal que "atrapalha" e significa que os SSDs integrados podem ser muito mais rápidos de acessar?

gpu performance hardware

— timday
fonte

Ele pode ignorar o driver do sistema operacional / #

— RichieSams 29/07

@ RichieSams: Interessante; isso significa, em princípio, que alguém poderia obter o mesmo resultado acessando um SSD PCIe dedicado no barramento do sistema? (Não sei até que ponto o tráfego PCIe do sistema principal precisa de suporte do SO para os dispositivos fazerem qualquer comunicação ou se eles podem fazê-lo de forma mais autônoma depois de configurada).

— timday 29/07

@timday parcialmente, mas ainda haveria sobrecarga como você precisa esperar por sua vez formam as contriollers gráficos

— joojaa

Respondendo da perspectiva de um leigo (não sou especialista em hardware, mas construí meu próprio computador), vou fazer uma analogia, usando a situação de obter alguns ingredientes para cozinhar alimentos.

Usar RAM / armazenamento do "sistema principal" é como procurar um ingrediente, não encontrá-lo em seus armários e, digamos, caminhar até seu vizinho e perguntar se ele tem algum. Acontece que eles fazem; eles trazem para você, você agradece e volta para sua casa e a usa.

Usar RAM / armazenamento "a bordo" é como procurar um ingrediente, encontrá-lo em seu armário e usá-lo.

Com RAM / armazenamento integrados, a GPU precisa fazer menos trabalho para obter as informações necessárias. As informações também são simplesmente mais próximas, tanto fisicamente quanto ao considerar a quantidade de hardware e software que as informações precisam passar. Com a RAM / armazenamento integrada, a GPU precisa apenas procurar onde estão as informações e, em seguida, recuperar essas informações da RAM / armazenamento, que viaja por alguns centímetros de fio até as unidades de processamento da GPU.

Com a RAM / armazenamento do sistema principal, há uma distância maior de fio para o sinal percorrer, o qual, embora possa ser apenas uma fração minúscula de segundo, ainda pode somar milhares de chamadas para recuperar informações. Além disso, existem mais gargalos em potencial, com todas as diferentes peças interconectadas.

Por fim, com RAM / armazenamento integrados, a AMD tem a oportunidade de otimizar o sistema, pois eles controlam com precisão o hardware que está sendo usado. É assim que a Apple adapta o Mac OS aos seus computadores Mac.

— Ben Sandeen
fonte