Li muitos artigos sobre Detecção de Objetos, Reconhecimento de Objetos, Segmentação de Objetos, Segmentação de Imagens e Segmentação de Imagem Semântica e aqui estão minhas conclusões que podem não ser verdadeiras:
Reconhecimento de Objetos: Em uma determinada imagem, você deve detectar todos os objetos (uma classe restrita de objetos depende do seu conjunto de dados), localize-os com uma caixa delimitadora e rotule essa caixa delimitadora com um rótulo. Na imagem abaixo, você verá uma saída simples de um reconhecimento de objeto de última geração.
Detecção de Objetos: é como reconhecimento de Objetos, mas nesta tarefa você tem apenas duas classes de classificação de objetos, o que significa caixas delimitadoras de objetos e caixas não delimitadas de objetos. Por exemplo, detecção de carro: você precisa detectar todos os carros em uma determinada imagem com suas caixas delimitadoras.
Segmentação de objetos: como o reconhecimento de objetos, você reconhecerá todos os objetos em uma imagem, mas sua saída deve mostrar esse objeto classificando os pixels da imagem.
Segmentação de imagem: na segmentação de imagem, você segmentará regiões da imagem. sua saída não rotulará segmentos e regiões de uma imagem que sejam consistentes entre si devem estar no mesmo segmento. A extração de super pixels de uma imagem é um exemplo dessa tarefa ou segmentação de primeiro plano e segundo plano.
Segmentação Semântica: Na segmentação semântica, você deve rotular cada pixel com uma classe de objetos (Carro, Pessoa, Cão, ...) e não-objetos (Água, Céu, Estrada, ...). Em outras palavras, na segmentação semântica, você rotulará cada região da imagem.