Algoritmos de visão computacional (como isso é possível?)

Recentemente, deparei-me com uma empresa que criou o que parece ser uma tecnologia de visão computacional capaz de detectar furtos automaticamente e alertar seus usuários.

LIGAÇÃO

Assistir a alguns dos vídeos e exemplos fornecidos pela empresa me deixou completamente perplexo e espantado com a forma como eles podem ter alcançado essa funcionalidade.

Entendo que ninguém aqui será capaz de me dizer exatamente como isso pode ter sido alcançado, mas alguém está ciente - e poderia me indicar - pesquisa neste campo ou, alternativamente, talvez forneça detalhes sobre como algo assim pode ser implementado ou orientação de onde alguém pode começar?

Meu entendimento era que os algoritmos de visão computacional estavam muitos anos longe de serem tão sofisticados. Esse tipo de aplicativo é realmente possível? Alguém disposto a arriscar um palpite de como eles conseguiram isso?

algorithms computer-vision

— Maxim Gershkovich
fonte

Isso não parece tão difícil. Jogos detectam colisões o tempo todo entre objetos; por que você não detectou colisões entre uma pessoa e uma prateleira de itens e disparou um alarme quando essa pessoa estava caminhando em direção à porta sem pagar?

— 9788 Robert

Exatamente. É apenas reconhecimento de objetos e detecção de colisão. A menos que eles o conectem ao scanner, é fácil passar movendo os objetos sobre o scanner, mas apenas um pouco acima dele. O objeto parece ter colidido com o scanner, mas na verdade não.

— Andrew T Finnell

De qualquer forma, nenhum dos mecanismos de detecção descritos no site (namorada, perda de cesta e auto-checkout) exige algo remotamente sofisticado. Eles fazem check-in em uma área muito confinada (o balcão da caixa) e podem fazer a verificação cruzada dos itens vistos na cesta com o que o scanner de código de barras está dizendo foi realmente digitalizado.

— 21711 Robert

Me desculpe, eu estou confuso. Vamos dar o exemplo sweathearting. Eu tenho dois itens, um item de baixo custo, um alto. Coloquei o item de baixo custo sob o de alto custo e digitalizei. Nesse ponto, podemos comparar o que foi digitalizado no sistema POS com o que é visível na câmera na mão do caixa, mas isso exige que o sistema seja capaz de "entender o que está sendo colocado na bolsa" em comparação com centenas de milhares de potenciais itens através de uma câmera de qualidade marginal. Isso parece extremamente complicado. o que estou perdendo?

— Maxim Gershkovich

Eu acho que você está assumindo demais o quão bem isso funciona. Aposto que há uma taxa de erro decente e provavelmente é muito fácil jogar o sistema. Eu vejo isso como mais um sistema do tipo denunciante, onde apenas identifica possíveis lugares no vídeo que precisam de revisão humana. Como tal, a imprecisão é bem tolerada.

— Chris12

Você está mal informado sobre o estado da arte. Há vários anos, trabalhei para uma empresa que construiu esses sistemas para diversos fins. Um deles era um sistema de controle de saída de aeroporto extremamente bem-sucedido, que podia facilmente identificar a diferença entre uma pessoa andando no caminho errado pelo corredor de saída e coisas como bolas em movimento ou pessoas seguindo o caminho certo. Não é fácil reconhecer objetos em uma cena em tempo real, mas estávamos fazendo isso em CPUs incorporadas, não em supercomputadores.

Não vi nada lá que não fosse crível há alguns anos atrás.

— Ross Patterson
fonte

Na verdade, esta empresa utiliza um híbrido de visão computacional e revisão manual na Índia. Não é pura visão computacional, especialmente para elementos como amor. Na verdade, eu conheço um varejista que tem um grande problema com esse sistema, não devido ao desempenho do sistema que armazeno, mas ao vídeo de envio de largura de banda para a Índia. Essa codificação manual é como eles reduzem erros e é um inquérito técnico típico de alguns fornecedores agora.

— Mike MacMillan
fonte