Ao ler os documentos de segmentação semântica, bem como suas implementações correspondentes, descobri que algumas abordagens usam softmax enquanto outras usam sigmoide para a rotulação em nível de pixel.
Por exemplo, com relação ao papel u-net , a saída é um mapa de recursos com dois canais.
Eu já vi algumas implementações usando o softmax sobre essas duas saídas de canal. Não tenho certeza se meu entendimento a seguir está correto ou não?
Para fins de ilustração, a parte mascarada pertence à classe 1 e a outra parte pertence à classe 2. Apenas assumo duas classes: mascarada ou não.
Eu uso xy
para representar o mapa de saída com a forma (1, image_row, image_col, 2). Então, xy[1,0,0,0]
representará a probabilidade de pixel em (0,0) pertencente à classe 1, enquanto xy[1,0,0,1]
representará a probabilidade de pixel (0,0) pertencente à classe 2. Em outras palavras,xy[1,row,col,0]+xy[1,row,col,1]=1
Meu entendimento está correto?