No caso de SVM de margem rígida e dados linearmente separáveis, isso é verdade.
Um esboço intuitivo: a perda para cada ponto de dados na regressão logística desaparece quase como uma curva de decaimento exponencial à medida que você se afasta do limite de decisão (na direção correta, é claro). Essa decadência exponencial significa que os pontos mais próximos à fronteira sofrem muito mais perdas. À medida que a temperatura cai para 0, os pontos mais próximos do limite dominam completamente a perda, e a perda é determinada exatamente pela proximidade dos pontos mais próximos.
A regressão logística binária possui a perda de entropia cruzada: que é o rótulo é a probabilidade prevista em .y p ( 0 , 1 )- yregistrop - ( 1 - y) log( 1 - p )yp( 0 , 1 )
Normalmente, que é a função sigmóide. Com base no parâmetro de temperatura introduzido neste artigo , suspeito que a temperatura se refira a uma modificação da formulação: , onde é a temperatura e eu ' abandonei o termo tendencioso por simplicidade.σ p = σ ( w T xp = σ( wTx + b )στp = σ( wTxτ)τ
Considerando apenas o primeiro termo da perda, . Assuma todos , porque qualquer outra coisa significaria que está no lado errado do limite de decisão e incorreria em perda infinita como . Como o termo exponencial fica muito pequeno no limite, usamos a expansão taylor de primeira ordem para para escreverwTx>0xτ→0log(1+z)-ylogp≈yexp(- w T x- yregistrop = yregistro( 1 + exp( - wTxτ) ))WTx > 0xτ→ 0registro( 1 + z)- yregistrop ≈ yexp( - wTxτ)
Até agora, usamos apenas a perda para um único ponto de dados, mas a perda real é . Considere apenas rótulos positivos ( ). Então essa soma é dominada pelo termo em que é o menor (o mais próximo ao limite de decisão).yi=1wTxi∑EuyEuexp( - wTxEuτ)yEu= 1WTxEu
Isso pode ser visto porque a razão entre o termo e o termo é que vai para o infinito ou 0 como , então somente o maior termo importa.j exp ( - w T x i / τ )Eujexp( - wTxEu/ τ)exp( - wTxj/ τ)= exp( wTxj- wTxEuτ)τ→ 0WTxEu
Um argumento simétrico pode ser usado no segundo termo na perda.
Portanto, a perda do problema de regressão logística à medida que a temperatura chega a 0 é minimizada maximizando a distância mínima até o limite da decisão.