Dado algum evento em um jogo, qual é o atraso máximo na produção de áudio para que o jogador associe adequadamente o áudio a esse evento (e não perceba atraso)?
Dado algum evento em um jogo, qual é o atraso máximo na produção de áudio para que o jogador associe adequadamente o áudio a esse evento (e não perceba atraso)?
Respostas:
O resultado a seguir é calculado para a sincronização labial que é considerada "o erro de sincronização a / v mais perceptível" .
Wikipedia diz
Para aplicativos de televisão, o áudio deve conduzir o vídeo em não mais que 15 milissegundos e o áudio deve atrasar o vídeo em não mais que 45 milissegundos. Para o filme, a sincronização labial aceitável é considerada não superior a 22 milissegundos em qualquer direção.
O Laboratório de Percepção de Mídia e Acústica diz
Os resultados do experimento determinaram que o limiar médio de áudio líder para detecção de sincronização a / v era 185,19 ms, com um desvio padrão de 42,32 ms
O ATSC diz
À primeira vista, parece solto: +90 ms a -185 ms como uma "Janela de Aceitabilidade"
e
- Não detectável de -100 ms a +25 ms
- Detectável em -125 ms e +45 ms
- Torna-se inaceitável a -185 ms e +90 ms
(- Som atrasado, + som avançado)
Concluir
Os resultados não estão tão longe um do outro. Parece que o atraso máximo aceitável é de cerca de 150ms, ou seja, 9 quadros a 60 quadros por segundo.
Sentir que, digamos, uma explosão que você vê e ouve é um único evento terá as tolerâncias descritas em outras respostas - não mais que ~ 50ms; algumas pessoas podem ser mais sensíveis (por exemplo, músicos), então sugiro que aponte para 30ms ou não mais que 2 quadros a 60fps.
Acredito que a distância percebida deve afetar essas tolerâncias. As pessoas esperam que os sons distantes sejam levemente atrasados, já que na vida real o som fica lento em aproximadamente 1ms por cada pé de distância. Portanto, uma explosão em um 'mapa' de jogo RTS com zoom reduzido pode ter uma tolerância maior ao atraso do som do que o jogador disparando sua própria arma em um FPS.
Casos especializados, como ter uma noção adequada de um jogo de música / ritmo, podem exigir tolerâncias muito mais rigorosas, 15-20 ms ou até mais baixas - por exemplo, se o jogador ouvir a "ação de entrada", como cantar no microfone ou tocar um microfone. instrumento plástico e também um som gerado pelo seu sistema para o mesmo evento, um atraso de 50 ms fará com que os sons "original" e "tocado" se misturem estranhamente.
Além disso, lembre-se do atraso entre o início do arquivo de áudio e o "evento" dentro desse arquivo - em muitos clipes de áudio, o "evento" não estará no limite, você poderá ouvir um raio strike onde o 'strike' acontece 200ms após o início, o que seria óbvio para todos, e praticamente todos os arquivos de som, mesmo um hit de bateria, terão algum atraso lá.
A visão e a audição estão profundamente conectadas na percepção humana e, se uma delas gagueja em relação à outra, será perceptível. Não é bom se na maioria das vezes é muito rápido, mas ocasionalmente há um atraso de 0,2 segundos enquanto algo está carregando - as pessoas perceberão essas situações. É por isso que o áudio geralmente é mantido em execução em um thread separado, isolado das outras atividades e recebendo apenas notificações rápidas sobre quais clipes pré-carregados devem ser reproduzidos.
Qualquer situação em que um jogador cause o som (jogos de música, armas no FPS) precisará de um atraso muito baixo, pois o jogador enviou um impulso para que isso acontecesse naquele momento, assim como um músico que ouve o instrumento atrasado, estará particularmente ciente de atrasos muito pequenos. Engenheiros de som se preocupam com atrasos na gravação abaixo de 5 mSec arruinando o "ritmo"
O Journal da Academia Americana de Audiologia afirma que as pessoas (não apenas os músicos), ao ouvirem sua própria voz atrasada, estão cientes de atrasos tão curtos quanto 3mSec, e um atraso superior a 10 mSec era desagradável 90% das vezes.
Os seres humanos usam o atraso de tempo entre os ouvidos para obter informações direcionais e, portanto, devem ser capazes de processar e extrair informações de atrasos abaixo de 1mSec
Os 185,19 ms citados acima são irrelevantes, pois se referem a um erro de som principal e, de qualquer forma, ao que as pessoas consideravam aceitável ao assistir passivamente a um filme, não ativamente envolvido em um jogo.
A resposta aceita aqui discute principalmente a percepção da sincronização de áudio ao assistir passivamente o vídeo. Nesses casos, o público não pode determinar com facilidade exatamente quando o áudio deve ser reproduzido, exceto assistindo a sinais indicadores no vídeo. Isso significa que eles têm uma antecipação limitada do som.
Há dois casos importantes em jogos em que essa suposição de baixa antecipação não se aplica:
Quando o próprio jogador causou o som (como SamB aponta), a partir do momento em que eles pretendem pressionar o botão, eles sabem exatamente quando esperam ouvir o som.
Quando o som deve pousar em uma batida periódica , como em jogos de música ou qualquer coisa com um cronômetro / contador, esse ritmo permite ao jogador antecipar o próximo som e perceber se o tempo está esgotado.
Nesta palestra da GDC 2013, Mathieu Pavageau argumenta que os jogadores podem perceber diferenças na precisão da sincronização acima de cerca de 5ms , muito menos tolerantes do que os exemplos da sincronização labial sugeririam. Confira as seções "Exemplos de percepção de tempo" e "Exemplo de jogos da Ubisoft" para ouvir por si mesmo. Você pode ouvir que o menu Rayman Origins não soa "atrasado" por si só quando sincronizado em 16 ms (quadro de vídeo), mas quando sincronizado em 5 ms, parece visivelmente melhor e mais preciso.
Pavageau defende o uso de um retorno de chamada de áudio de baixo nível para obter esse tipo de precisão do sub-quadro, se você quiser uma jogabilidade rítmica com essa sensação.
Para jogos que exigem que uma pessoa reaja a pistas de áudio, a cada milissegundo em que o som é atrasado fará com que a resposta da pessoa seja igualmente atrasada. Alguém que está simplesmente assistindo a um filme ou cena pode não perceber muito se o áudio e o vídeo não estiverem exatamente sincronizados, mas geralmente é importante e às vezes crítico que o áudio esteja sincronizado com o que o player está fazendo .
Em teoria, tudo acima de 50ms pode ser perceptível quando se associa a imagens; em 25ms você pode começar a ouvir um som e seu atraso como dois sons separados, então eu diria que eu recomendo que você fique abaixo de 50ms e se você pode até ficar entre 5ms e 15ms, seria muito bom.
Eu espero que isso te ajude!