Como a Siri me reconhece dizendo "Hey Siri"?

8

Eu estou tentando entender como o meu iPhone pode ouvir continuamente para mim dizendo Hey Siri, Alexa, Hey Cortanaou Okay Googlesem drenar rapidamente a minha bateria para baixo.

Imaginei dois tipos de algoritmo. Um que registra uma fatia de tempo, como 10 ms de largura a cada 200 ms e executa uma detecção síncrona em frequências específicas. No entanto, esses parâmetros dependem fortemente da característica da minha voz. Além disso, ele ainda consumirá muita energia da CPU para tentar continuamente igualar uma Hey Sirino meio do nada.

Que tipo de algoritmo / implementação eficiente de baixa potência (hardware ou software) pode executar essa tarefa?

De alguma forma, isso está relacionado a esta patente: https://www.google.com/patents/US20160253997

Li alguns artigos que falam sobre modelos ocultos de Markov, mas duvido que seja uma abordagem de baixo consumo de energia.

sound speech-recognition voice

— nowox
fonte

6

"Ok Google" é descrito em muitas publicações do Google

Controle automático de ganho e treinamento de vários estilos para detecção de palavras-chave de tamanho reduzido e robusto com redes neurais profundas

Redes neurais convolucionais para identificação de palavras-chave de tamanho reduzido

Ele é baseado no DNN treinado especificamente para a frase-chave e funciona muito rápido. Não consome muita energia, mesmo em dispositivos móveis.

Alexa spotting é implementada pelos mesmos caras e disponível como Snowboy

ATUALIZAÇÃO: A Apple descreve sua implementação aqui .

— Nikolay Shmyrev
fonte

1

Para elaborar a resposta @ hotpaw2, "Hey Siri" é executado no chip de coprocessador M9 de baixa potência , que também faz coisas como monitorar passos etc. no aplicativo Health. Assim, em dispositivos mais antigos sem o chip M9, você precisa do seu iDevice conectado para que o "Hey Siri" funcione.

Eu acho que a implementação de hardware de baixa potência é fundamental (e não apenas o gênio algorítmico independente do hardware)

Referências:

— ruoho ruotsi
fonte

0

Apenas alguns palpites:

O hardware dedicado (chip "M" adicional ou bloco lógico SOC com seu próprio domínio de energia isolado), rodando com taxas de clock de processamento de áudio ou ciclos de serviço, em minúsculos buffers de dados, consome muito menos energia do que as CPUs capazes de GHz com vastas hierarquias de memória. A CPU principal só precisa ser ativada se um ID provável provável for alto o suficiente, para que o algoritmo de detecção inicial não precise ser bom, apenas bom o suficiente. Além disso, considere o quão pequena a bateria é de um fone de ouvido Bluetooth em comparação com um smartphone com a mesma vida útil da bateria. O processamento simples de áudio não gasta rapidamente baterias relativamente grandes de telefones celulares.

— hotpaw2
fonte