As respostas anteriores são muito boas, gostaria de apontar mais algumas adições:
Segmentação de Objetos
uma das razões pelas quais isso caiu em desuso na comunidade de pesquisa é porque é problemática e vago. A segmentação de objetos costumava significar simplesmente encontrar um único ou um pequeno número de objetos em uma imagem e desenhar um limite ao redor deles e, para a maioria dos propósitos, você ainda pode assumir que significa isso. No entanto, também começou a ser usado para significar segmentação de blobs que podem ser objetos, segmentação de objetos do fundo (mais comumente agora chamado de subtração de fundo ou segmentação de fundo ou detecção de primeiro plano), e até mesmo em alguns casos usado de forma intercambiável com o reconhecimento de objetos usando caixas delimitadoras (isso parou rapidamente com o advento de abordagens de redes neurais profundas para reconhecimento de objetos, mas antes o reconhecimento de objetos também poderia significa simplesmente rotular uma imagem inteira com o objeto nela).
O que torna a "segmentação" "semântica"?
Simpy, cada segmento, ou no caso de métodos profundos cada pixel, recebe um rótulo de classe com base em uma categoria. A segmentação em geral é apenas a divisão da imagem por alguma regra. A segmentação do Meanshift , por exemplo, de um nível muito alto, divide os dados de acordo com as mudanças na energia da imagem. Corte do gráficoa segmentação com base na mesma não é aprendida, mas derivada diretamente das propriedades de cada imagem separada das demais. Métodos mais recentes (baseados em rede neural) usam pixels que são rotulados para aprender a identificar os recursos locais que estão associados a classes específicas e, em seguida, classificam cada pixel com base em qual classe tem a maior confiança para aquele pixel. Desta forma, "etiquetagem de pixel" é na verdade um nome mais honesto para a tarefa, e o componente de "segmentação" é emergente.
Segmentação de instância
Provavelmente o significado mais difícil, relevante e original de Segmentação de Objeto, "segmentação de instância" significa a segmentação de objetos individuais em uma cena, independentemente de serem do mesmo tipo. No entanto, uma das razões pelas quais isso é tão difícil é porque de uma perspectiva de visão (e de certa forma filosófica) o que torna uma instância de "objeto" não é totalmente claro. As partes do corpo são objetos? Esses "objetos parciais" deveriam ser segmentados por um algoritmo de segmentação de instância? Devem ser segmentados apenas se forem vistos separados do todo? E quanto aos objetos compostos, duas coisas claramente adjacentes, mas separáveis, devem ser um ou dois objetos (uma pedra colada no topo de uma vara é um machado, um martelo ou apenas uma vara e uma pedra, a menos que seja feita de maneira apropriada?). Além disso, não é t claro como distinguir instâncias. Um testamento é uma instância separada das outras paredes às quais está anexado? Em que ordem as instâncias devem ser contadas? Como eles aparecem? Proximidade do ponto de vista? Apesar dessas dificuldades, a segmentação de objetos ainda é um grande negócio porque, como humanos, interagimos com objetos o tempo todo, independentemente de seu "rótulo de classe" (usando objetos aleatórios ao seu redor como pesos de papel, sentados em coisas que não são cadeiras), e, portanto, alguns conjuntos de dados tentam chegar a esse problema, mas o principal motivo de não haver muita atenção dada ao problema ainda é porque ele não está bem definido.
Análise de cena / rotulagem de cena
A análise de cena é a abordagem de segmentação estrita para a rotulagem de cena, que também possui alguns problemas próprios de indefinição. Historicamente, a rotulação de cena significa dividir toda a "cena" (imagem) em segmentos e dar a todos um rótulo de classe. No entanto, também era usado para significar dar rótulos de classe a áreas da imagem sem segmentá-las explicitamente. No que diz respeito à segmentação, "segmentação semântica" não implica dividir toda a cena. Para a segmentação semântica, o algoritmo se destina a segmentar apenas os objetos que conhece, e será penalizado por sua função de perda por rotular pixels que não possuem nenhum rótulo. Por exemplo, o conjunto de dados MS-COCO é um conjunto de dados para segmentação semântica onde apenas alguns objetos são segmentados.