Eles são, de fato, equivalentes, no sentido de que um pode ser transformado no outro.
Suponha que seus dados sejam representados por um vetor , de dimensão arbitrária, e você construiu um classificador binário para eles, usando uma transformação afim seguida por um softmax:x
(z0z1)=(wT0wT1)x+(b0b1),
P(Ci|x)=softmax(zi)=eziez0+ez1,i∈{0,1}.
Vamos transformá-lo em um classificador binário equivalente que usa um sigmóide em vez do softmax. Primeiro de tudo, temos que decidir qual é a probabilidade que queremos que o sigmóide (que pode ser da classe ou ). Essa escolha é absolutamente arbitrária e, portanto, escolho a classe . Então, meu classificador terá o formato:C0C1C0
z′=w′Tx+b′,
P(C0|x)=σ(z′)=11+e−z′,
P(C1|x)=1−σ(z′).
Os classificadores são equivalentes se as probabilidades são as mesmas, portanto, devemos impor:
σ(z′)=softmax(z0)
Substituindo , e pelas expressões em termos de e e fazendo algumas coisas simples manipulação algébrica, você pode verificar que a igualdade acima detém se e somente se e são dadas por:z0z1z′w0,w1,w′,b0,b1,b′xw′b′
w′=w0−w1,
b′=b0−b1.