Leitura labial automatizada: inferindo o que alguém está dizendo, com base no vídeo deles falando


7

Alguns seres humanos conseguem ler muito bem os lábios: observando alguém que está falando, eles podem dizer o que o falante está dizendo (mesmo sem ouvir o discurso).

Houve algum trabalho na construção de software para leitura labial? Em outras palavras, dado um vídeo de alguém falando, é possível criar um software para inferir o que a pessoa está dizendo (com acesso apenas ao fluxo de vídeo, sem áudio)? Houve alguma pesquisa sobre esse problema ou mesmo sistemas implantados?

Antecedentes e motivação: nos EUA, certas leis podem proibir a gravação de áudio sem consentimento. No entanto, geralmente não há proibição de gravar vídeo sem o consentimento das pessoas que estão sendo gravadas. (É por isso que você vê câmeras de vigilância em todo o lugar, e porque elas gravam apenas vídeo, mas nunca áudio.) Estou curioso para saber se a tecnologia avançou o suficiente para que, somente a partir do vídeo, seja possível que métodos automatizados digam o que as pessoas estão dizendo - ou se isso pode se tornar viável no futuro próximo. E, além das implicações de privacidade, essa tecnologia pode ser bastante útil.

Respostas:


3

Parece haver algum trabalho nessa área. Veja, por exemplo, este artigo e suas referências. Existem também demonstrações de sistemas implementados no youtube, veja, por exemplo, este vídeo


2

Há alguns trabalhos recentes aqui:

LipNet: Lipreading em nível de sentença . Yannis M. Assael, Brendan Shillingford, Shimon Whiteson e Nando de Freitas.

Eles atingem 93% de precisão em um corpus de vídeos de 3 segundos com a cabeça falante, em comparação com a precisão de 52% de leitores humanos experientes. Eles têm um vídeo demonstrando seus resultados.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.