Na teoria da aprendizagem estatística, não há um problema de adaptação excessiva em um conjunto de testes?

Vamos considerar o problema de classificar o conjunto de dados MNIST.

De acordo com a página MNIST da Yann LeCun , 'Ciresan et al.' obteve uma taxa de erro de 0,23% no conjunto de testes MNIST usando a Rede Neural Convolucional.

Vamos denotar o treinamento MNIST definido como , o teste MNIST definido como , a hipótese final que eles obtiveram usando como e sua taxa de erro no MNIST Test usando como . $D_{train}$ $D_{test}$ $D_{train}$ $h_{1}$ $h_{1}$ $E_{test}(h_{1}) = 0.0023$

Do ponto de vista deles, como é um conjunto de testes amostrados aleatoriamente no espaço de entrada, independentemente de , eles podem insistir que o desempenho de erro fora da amostra de sua hipótese final seja delimitada da seguinte forma: Desigualdade de Hoeffding que. $D_{test}$ $h_{1}$ $E_{out}(h_{1})$

P [| E_{o você t} (h_{1 1}) - E_{t e s t} (h_{1 1}) | < ϵ |] \geq 1 1 - 2 e^{2 ϵ^{2} N_{t e s t}}

$P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}}$

N_{t e s t} = | D_{t e s t} |

$N_{test}=|D_{test}|$

Em outras palavras, pelo menos a probabilidade , $1-\delta$

E_{o u t} (h_{1}) \leq E_{t e s t} (h_{1}) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}$

Vamos considerar outro ponto de vista. Suponha que uma pessoa queira classificar bem o conjunto de testes MNIST. Então ele olhou pela primeira vez na página MNIST da Yann LeCun e encontrou os seguintes resultados obtidos por outras pessoas usando 8 modelos diferentes,

Resultados da classificação MNIST

e escolheu seu modelo que apresentou melhor desempenho no conjunto de testes MNIST entre 8 modelos. $g$

Para ele, o processo de aprendizado estava escolhendo uma hipótese $g$ que apresentava melhor desempenho no conjunto de testes $D_{test}$ de um conjunto de hipóteses $H_{trained}=\{h_1, h_2, .. ,h_8\}$ .

Portanto, o erro no conjunto de testes é um erro 'dentro da amostra' para esse processo de aprendizado, para que ele possa aplicar o VC vinculado a conjuntos de hipóteses finitas da seguinte maneira: desigualdade. $E_{test}(g)$

P [| E_{o u t} (g) - E_{i n} (g) | < ϵ] \geq 1 - 2 | H_{t r a i n e d} | e^{2 ϵ^{2} N_{t e s t}}

$P[|E_{out}(g)-E_{in}(g)|<\epsilon] \geq 1 - 2|H_{trained}|e^{2\epsilon^{2}N_{test}}$

Em outras palavras, pelo menos probabilidade , $1-\delta$

E_{o u t} (g) \leq E_{t e s t} (g) + \sqrt{\frac{1}{2 N_{t e s t}} l n \frac{2 | H_{t r a i n e d} |}{δ}}

$E_{out}(g) \leq E_{test}(g) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

Esse resultado implica que pode haver sobreajuste no conjunto de teste se escolhermos o modelo com melhor desempenho entre vários modelos.

Nesse caso, a pessoa pode escolher , que tem a menor taxa de erro . Como é a melhor hipótese entre os 8 modelos desse conjunto de testes específico , pode haver alguma possibilidade de que seja uma hipótese adaptada no conjunto de testes MNIST. $h_{1}$ $E_{test}(h_{1}) = 0.0023$ $h_{1}$ $D_{test}$ $h_{1}$

Assim, essa pessoa pode insistir na seguinte desigualdade.

E_{o você t} (h_{1 1}) \leq E_{t e s t} (h_{1 1}) + \sqrt{\frac{1 1}{2 N_{t e s t}} eu n \frac{2 | H_{t r uma Eu n e d} |}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

Conseqüentemente, obtivemos duas desigualdades e .

P [E_{o você t} (h_{1 1}) \leq E_{t e s t} (h_{1 1}) + \sqrt{\frac{1 1}{2 N_{t e s t}} eu n \frac{2}{δ}}] \geq 1 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}\;] \geq 1-\delta$

P [E_{o você t} (h_{1 1}) \leq E_{t e s t} (h_{1 1}) + \sqrt{\frac{1 1}{2 N_{t e s t}} eu n \frac{2 | H_{t r uma Eu n e d} |}{δ}}] \geq 1 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}\;] \geq 1-\delta$

No entanto, é óbvio que essas duas desigualdades são incompatíveis.

Onde estou fazendo errado? Qual está certo e qual está errado?

Se o último estiver errado, qual é a maneira correta de aplicar o VC vinculado a conjuntos de hipóteses finitas nesse caso?

— asqdf
fonte

Entre essas duas desigualdades, acho que a última está errada. Em resumo, o que está errado aqui é a identidade dado que é uma função dos dados de teste enquanto é um modelo que é independente dos dados de teste. $g=h_1$ $g$ $h_1$

De fato, é um dos 8 modelos em que melhor prediz o conjunto de testes . $g$ $H_{trained} = \{ h_1, h_2,..., h_8 \}$ $D_{test}$

Portanto, é uma função de . Para um conjunto de testes específico, (como o que você mencionou), pode acontecer que , mas em geral, dependendo do conjunto de testes, pode assumir qualquer valor em . Por outro lado, é apenas um valor em . $g$ $D_{test}$ $D^*_{test}$ $g(D^*_{test}) = h_1$ $g(D_{test})$ $H_{trained}$ $h_1$ $H_{trained}$

Para a outra pergunta:

Se o último estiver errado, qual é a maneira correta de aplicar o VC vinculado a conjuntos de hipóteses finitas nesse caso?

Apenas não substitua por , você obterá o limite correto (para , é claro) e não haverá conflito com o outro limite (que é para ). $g$ $h_1$ $g$ $h_1$

— Tĩnh Trần
fonte