Fui enviado aqui a partir desta pergunta no stackoverflow , desculpe-me se a pergunta for muito específica e não estiver nas maneiras aqui :)
A tarefa é encontrar um copo com líquido específico. Deixe-me mostrar as fotos e depois descrever o que estou tentando alcançar e como eu estava tentando alcançar até agora na descrição abaixo das imagens.
As imagens : (parece que eu preciso de pelo menos 10 reputação para postar fotos e links, então os links terão que fazer :( caso contrário, você pode olhar para a questão do estouro da pilha)
Uma descrição detalhada : Eu estava tentando implementar um algoritmo que detectasse um vidro de uma forma específica no opencv (o vidro pode ser transformado por um ângulo / distância diferentes do tiro da câmera). Também haverá outros copos de outras formas. O copo que eu estou procurando também será preenchido com um líquido colorido que o diferenciará dos óculos que contêm outras cores.
Até agora, tentei usar o extrator de recurso SIFT para tentar encontrar alguns recursos no vidro e depois combiná-los com outras fotos com o vidro.
Essa abordagem funcionou apenas em condições muito específicas, onde eu teria vidro em uma posição muito específica e o fundo seria semelhante às imagens de aprendizagem. O problema também é que o vidro é um objeto 3D e eu não sei como extrair recursos disso (talvez várias fotos de diferentes ângulos estejam ligadas de alguma forma?).
Agora eu não sei que outra abordagem eu poderia usar. Encontrei algumas pistas sobre isso (aqui /programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219338 ), mas os links parecem estar quebrados.
Outro problema seria detectar diferentes "níveis de vazio" em tais vidros, mas eu nem consegui encontrar o vidro propriamente dito.
Quais seriam suas recomendações sobre a abordagem nesta tarefa? Seria melhor usar uma maneira diferente de encontrar o recurso de objeto 3d local? Ou seria melhor usar outra abordagem completamente? Eu ouvi falar sobre algoritmos "aprendendo" o objeto a partir de um conjunto de várias fotos, mas nunca vi isso na prática.
Qualquer conselho seria muito apreciado