Visão computacional: detecção de objetos com rótulos com coordenadas únicas

Existem artigos na literatura que abordam a seguinte tarefa de detecção de objetos?

A tarefa pode ser descrita da seguinte maneira:

Dado um conjunto de imagens, os rótulos são apenas coordenadas (x, y) que representam os locais dos objetos que desejamos detectar. Uma coordenada não está necessariamente no centro do objeto e o objeto pode ser de qualquer tamanho.
A tarefa é detectar um objeto que seja uma pessoa, um barco ou um carro. No entanto, os rótulos não indicam a categoria dos objetos, os rótulos são simplesmente coordenadas próximas aos objetos de interesse.
As imagens são tiradas a cada hora e são instantâneos da mesma cena; portanto, técnicas de subtração em segundo plano podem ajudar.
Existem cerca de 2000 imagens da mesma cena e cada imagem geralmente possui 2 objetos de interesse.

Gostaria de saber se essa tarefa já foi abordada antes?

Recursos de suínos e SVM mostraram grande sucesso na detecção de seres humanos em imagens. Mas a literatura relevante usa dados de treinamento nos quais os objetos de interesse são rotulados usando uma caixa delimitadora em vez de uma única coordenada.

Os três principais desafios são:

É difícil escolher a caixa delimitadora para o classificador, pois os objetos podem ter qualquer tamanho.
instantâneos da cena são tirados a cada hora (a câmera também pode se mover um pouco); portanto, usar a subtração em segundo plano não é fácil.
não temos muitos dados rotulados.

Seria interessante ver como as pessoas lidam com esses desafios.

Obrigado!

— Curioso
fonte

Soa como apenas detecção e localização de objetos. Que pesquisa você fez? Você já leu sobre esses assuntos? Existe algum motivo para você não acreditar que isso seja um caso disso ou não achar uma resposta aceitável para sua pergunta?

— DW

Enquanto pesquisava sobre esse tópico, não encontrei um trabalho de pesquisa em que os rótulos dos objetos fossem dados como coordenadas, em vez de (1) uma caixa delimitadora ou (2) rótulos em pixels . A identificação de coordenadas torna mais difícil para os algoritmos de processamento de imagem reconhecer objetos, mas é mais fácil para os seres humanos rotularem objetos. Mas acho que posso usar a validação cruzada para determinar a melhor caixa delimitadora para cada objeto rotulado. Seria útil ter uma referência a um trabalho de pesquisa em que o conjunto de dados possua mecanismo de rotulagem semelhante. O @nbubis tem uma ótima resposta, mas os artigos que ele publicou têm conjuntos de dados mais agradáveis.

— Curioso

O estado da arte em tais problemas é feito atualmente através de redes neurais profundas. Entre outras, duas abordagens populares e recentes para resolver o problema de detecção e localização de objetos são o artigo YOLO e o RCNN mais rápido , que executa um classificador em várias regiões de tamanhos variados em uma imagem.

Como humanos, barcos e carros são classes de objetos populares, eu tentaria primeiro ver o que redes pré-treinadas existentes podem fazer pelo seu problema e, se necessário, tentava treiná-las novamente usando seus dados.

— nbubis
fonte