Por que com o classificador Bayes alcançamos o melhor desempenho possível? Qual é a prova formal / explicação para isso?
Normalmente, um conjunto de dados é considerado como iid samples de uma distribuição que gera seus dados. Em seguida, você constrói um modelo preditivo a partir dos dados fornecidos: dada uma amostra , você prevê a classe , enquanto a classe real da amostra é .DnxEuxEuf ( x i ) f ( x i )f^( xEu)f( xEu)
No entanto, em teoria, você pode decidir não escolher um modelo específico , mas considerar todos os modelos possíveis uma só vez e combiná-los de alguma forma em um grande modelo .f^escolhido f Ff^F^
Obviamente, dados os dados, muitos dos modelos menores podem ser improváveis ou inapropriados (por exemplo, modelos que prevêem apenas um valor do alvo, mesmo que haja vários valores do alvo no seu conjunto de dados ).D
De qualquer forma, você deseja prever o valor alvo de novas amostras, que são desenhadas a partir da mesma distribuição que s. Uma boa medida do desempenho do seu modelo seria
ou seja, a probabilidade de você prever a valor alvo verdadeiro para um amostrado aleatoriamente .xEuee ( modelo ) = P[ f( X) = modelo ( X) ] ,
X
Usando a fórmula de Bayes, é possível calcular qual é a probabilidade de uma nova amostra ter o valor-alvo , dados os dados :xvD
P( v ∣ D ) = ∑f^P( v ∣ f^) P( f^| D ) .
Deve-se enfatizar que
- geralmente é ou , pois é uma função determinística de ,P( v ∣ f^)0 01f xf^x
- geralmente não, mas quase o tempo todo, é impossível estimar (exceto nos casos triviais mencionados acima),P( f^| D )
- geralmente não, mas quase o tempo todo, o número de possíveis modelos é muito grande, para que a soma superior seja avaliada.f^
Portanto, é muito difícil obter / estimar na maioria dos casos.P( v ∣ D )
Agora, prosseguimos para o classificador Optimal Bayes. Para um dado , ele prevê o valor
Como esse é o valor mais provável entre todos os valores-alvo possíveis , o classificador Optimal Bayes maximiza a medida de desempenho .xv = argmax v Σ f P ( v | f ) P ( F | D ) . v e ( f )v^= argmaxv∑f^P( v ∣ f^) P( f^| D ) .
ve ( f^)
Como sempre usamos o classificador Bayes como referência para comparar o desempenho de todos os outros classificadores.
Provavelmente, você usa a versão ingênua do classificador Bayes. É fácil de implementar, funciona razoavelmente bem na maioria das vezes, mas calcula apenas uma estimativa ingênua de .P( v ∣ D )