Sei que essa pergunta foi feita há mais de um ano, mas acho que uma possibilidade é usar a decomposição de variação de polarização para calcular um limite mais baixo da taxa de erro.
Essencialmente, a taxa de erro é escrita como a soma de três termos, o viés, a variação e o erro irredutível. Uma boa fonte para aprender sobre esses termos é Uma introdução ao aprendizado estatístico .
Suponha que a verdadeira função ( ) esteja dentro da família de funções que nosso modelo de aprendizado de máquina é capaz de ajustar e aceite o limite conforme a quantidade de dados de treinamento que temos vai para o infinito. Então, se nosso modelo de aprendizado de máquina tiver um número finito de parâmetros, o viés e a variação serão zero. Portanto, o erro real será simplesmente igual ao erro irredutível.f(x)
Como exemplo, suponha que nossos dados verdadeiros sejam lineares com o ruído gaussiano: . Um dos estimadores ideais é obviamente a regressão linear, , e, à medida que adicionamos mais exemplos de treinamento, os coeficientes estimados e vai se aproximar de e , respectivamente. Portanto, o melhor erro (assumindo a perda ao quadrado) que poderíamos esperar seria igual a , o erro inerente / ruído irredutível associado à própria geração de dadosy∼N(a+bx,σ2)y^=a^+b^xa^b^abσ2
Na prática, calcular o erro irredutível é difícil (impossível?), Pois requer conhecimento do verdadeiro processo de geração dos dados. Porém, essa crítica também é aplicável ao erro de Bayes, pois exige conhecimento das verdadeiras probabilidades de classe.