Na verdade, isso é bem simples: o classificador Bayes escolhe a classe que tem maior probabilidade de ocorrência a posteriori (chamada estimativa máxima a posteriori ). A função de perda 0-1 penaliza a classificação incorreta, ou seja, atribui a menor perda à solução que possui o maior número de classificações corretas. Então, nos dois casos, estamos falando sobre o modo de estimativa . Lembre-se de que o modo é o valor mais comum no conjunto de dados ou o valor mais provável ; portanto, maximizar a probabilidade posterior e minimizar a perda de 0-1 leva à estimativa do modo.
Se você precisa de uma prova formal, essa é apresentada no artigo Introdução à teoria da decisão bayesiana de Angela J. Yu:
A função de perda binária 0-1 tem o seguinte formato:
lx(s^,s∗)=1−δs^s∗={10ifs^≠s∗otherwise
onde é a função Delta Kronecker. (...) a perda esperada é:δ
Lx(s^)=∑s∗lx(s^,s∗)P(s=s∗∣x)=∑s∗(1−δs^s∗)P(s=s∗∣x)=∑s∗P(s=s∗∣x)ds∗−∑s∗δs^s∗P(s=s∗∣x)=1−P(s=s∗∣x)
Isso é verdadeiro para a estimativa máxima a posteriori em geral. Portanto, se você conhece a distribuição posterior, assumindo a perda de 0-1, a regra de classificação mais ideal é adotar o modo da distribuição posterior, chamamos isso de classificador Bayes ideal . Na vida real, geralmente não sabemos a distribuição posterior, mas a estimamos. O classificador Naive Bayes aproxima o classificador ideal observando a distribuição empírica e assumindo a independência dos preditores. O classificador Bayes tão ingênuo não é, por si só, ideal, mas aproxima-se da solução ideal. Na sua pergunta, você parece confundir essas duas coisas.