Friedman, Hastie e Tibshirani (2010) , citando The Elements of Statistical Learning , escrevem,
Geralmente usamos a regra "erro padrão único" ao selecionar o melhor modelo; isso reconhece o fato de que as curvas de risco são estimadas com erro; portanto, há erros no lado da parcimônia.
A razão para usar um erro padrão, em oposição a qualquer outra quantia, parece ser porque é, bem ... padrão. Krstajic, et al (2014) escrevem (ênfase em negrito):
Breiman et al. [25] descobriram, no caso de selecionar o tamanho ideal da árvore para os modelos de árvore de classificação, que o tamanho da árvore com um erro mínimo de validação cruzada gera um modelo que geralmente se adapta demais. Portanto, na Seção 3.4.3 de seu livro, Breiman et al. [25] definem a regra de erro padrão (regra 1 SE) para escolher o tamanho ideal da árvore e a implementam ao longo do livro. Para calcular o erro padrão para a validação cruzada de uma única dobra em V, a precisão precisa ser calculada para cada dobra e o erro padrão é calculado a partir das precisões em V de cada dobra. Hastie et al. [4] definem a regra 1 SE como selecionando o modelo mais parcimonioso, cujo erro não passa de um erro padrão acima do erro do melhor modelo, e eles sugerem em vários locais o uso da regra 1 SE para uso geral de validação cruzada.O ponto principal da regra do 1 SE, com o qual concordamos, é escolher o modelo mais simples, cuja precisão é comparável ao melhor modelo .
A sugestão é que a escolha de um erro padrão seja totalmente heurística, com base no senso de que um erro padrão normalmente não é grande em relação ao intervalo de valores .λ