Isso ocorre porque o tom é enviado ao seu terminal fora da banda, separado para a mídia em uma mensagem SIP INFO (SIP 2.0) ou UII (H.245), gerada localmente pelo seu dispositivo.
SIP / H.323 é o protocolo usado para configurar sua chamada de VoIP e geralmente é transportado por um soquete TCP aberto pelo seu roteador de maneira semelhante a uma solicitação HTTP.
Exemplo de SIP INFO:
INFO sip:012345678901@example.com SIP/2.0
Via: SIP/2.0/UDP alice.uk.example.com:5060
From: <sip:109876543210@alice.uk.example.com>;tag=d3je23d
To: <sip:012345678901@example.com>;tag=8932
Call-ID: 312352@myphone
CSeq: 5 INFO
Content-Length: 24
Content-Type: application/dtmf-relay
Signal=5
Duration=160
O tráfego de voz será transportado por um fluxo UDP. Para permitir a entrada de mídia no seu dispositivo, o roteador precisa inspecionar o protocolo SIP / H.323 para identificar a porta UDP que será usada para a mídia e, em seguida, abrir essa porta e NAT (Network Address Translation) no seu endpoint.
Alguns provedores executam trava simétrica, isso basicamente espera a mídia que você envia e depois transmite o discurso de retorno para a mesma porta e IP de origem no seu dispositivo, pois isso normalmente será aberto e o NAT retornará ao seu endpoint fazendo a chamada. .