Há 40 anos, você pode ter um computador em que a CPU controlava o alto-falante diretamente. Esses tempos acabaram, há muito tempo.
Você pode ter um computador com uma placa de som primitiva. Essa placa de som terá um buffer para amostras de áudio estéreo, esse buffer poderá ser preenchido, a função de saída será iniciada e a placa de som começará a gerar áudio a partir das amostras em seus buffers, sem que a CPU precise fazer nada. Tudo o que a CPU precisa fazer é preencher os buffers com mais amostras de áudio antes que ele acabe. Se você possui um buffer de um megabyte, são 250.000 amostras estéreo com qualidade de CD, são cerca de seis segundos. Portanto, a cada poucos segundos, a CPU precisa preencher esses buffers novamente.
Na realidade, seu computador terá algo muito mais avançado. Em princípio, o mesmo, mas os buffers podem ser preenchidos diretamente com som no formato mp3 ou aac, por exemplo, e a placa de som decodificará esses dados em amostras estéreo por conta própria. Provavelmente, ele pode ser programado para produzir todos os tipos de efeitos diferentes, desde o volume do som, melhorando a qualidade do som, alterando o tom ou a velocidade independentemente, gerando som surround e assim por diante.
A CPU não faz muito, apenas preenchendo os buffers de som de tempos em tempos. O resto é feito por outra coisa. É claro que quando digo "placa de som", elas diminuíram de placas de som para chips até um pequeno fragmento de transistores em um chip massivo com várias funcionalidades diferentes.
Para um fabricante de tais cartões, consulte https://en.wikipedia.org/wiki/Wolfson_Microelectronics como ponto de partida.