Depois de ler essa pergunta novamente, posso lhe dar o seguinte limite:
Consideram-se os amostras são recolhidas iid, a distribuição é fixa, e a perda é delimitada por , em seguida, com uma probabilidade de, pelo menos, 1 - δ ,
E [ E ( h ) ] ≤ E ( h ) + B √B1 - δ
E [ E( h ) ] ≤ E^( h ) + B log1δ2 m-----√
onde é o tamanho da amostra e 1 - δ é a confiança. O limite é trivial pela desigualdade de McDiarmid.m1 - δ
é o tamanho da amostra, E [ E ( h ) ] é a generalização de erro, e E ( H ) é o erro de teste por hipótese.mE [ E( H ) ]E^( H )
Por favor, não relate apenas o erro de validação cruzada nem o erro de teste, eles geralmente não fazem sentido, pois são apenas estimativas pontuais.
Post antigo para registro:
Não sei se entendi completamente sua pergunta, mas vou tentar.
Primeiro, não tenho certeza de como você definiria um intervalo de previsão para a seleção de modelos, pois, como eu o entendo, os intervalos de previsão fazem algumas suposições de distribuição. Em vez disso, você pode derivar desigualdades de concentração, que essencialmente vinculam uma variável aleatória por sua variação para alguma probabilidade. As desigualdades de concentração são usadas durante o aprendizado de máquina, incluindo a teoria avançada para impulsionar. Nesse caso, você deseja vincular o erro de generalização (seu erro em geral, pontos que não viu) pelo seu erro empírico (seu erro no conjunto de testes) mais algum termo de complexidade e um termo relacionado à variação.
Agora, preciso dissipar um mal-entendido sobre a validação cruzada que é extremamente comum. A validação cruzada fornecerá apenas uma estimativa imparcial do erro esperado de um modelo PARA UM TAMANHO DE AMOSTRA FIXA. A prova disso funciona apenas para o protocolo de exclusão. Na verdade, isso é bastante fraco, pois não fornece informações sobre a variação. Por outro lado, a validação cruzada retornará um modelo mais próximo da solução estrutural de minimização de risco, que é a melhor solução teoricamente. Você pode encontrar a prova no apêndice aqui: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
Então, como derivar um limite de generalização? (Lembre-se de que um limite de generalização é basicamente um intervalo de previsão sobre o erro de generalização para um modelo específico). Bem, esses limites são específicos ao algoritmo. Infelizmente, existe apenas um livro que estabelece limites para todos os algoritmos comumente usados no aprendizado de máquina (incluindo o aumento). O livro é Fundamentos do aprendizado de máquina (2012) de Mohri, Rostamizadeh e Talwalkar. Para slides de palestras que cobrem o material, você pode encontrá-los na página de Mohri na Web: http://www.cs.nyu.edu/~mohri/ml14/
Embora o Elements of Statistical Learning seja um livro importante e um tanto útil, ele não é muito rigoroso e omite muitos detalhes técnicos muito importantes sobre os algoritmos e omite completamente qualquer tipo de limite de generalização. O Foundations of Machine Learning é o livro mais abrangente sobre aprendizado de máquina (o que faz sentido, visto que foi escrito por alguns dos melhores da área). No entanto, o livro é avançado, portanto, tenha cuidado com detalhes técnicos.
A generalização vinculada ao aumento pode ser encontrada (com prova) aqui: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
Espero que sejam indicadores suficientes para responder à sua pergunta. Estou hesitante em dar uma resposta completa, pois levará cerca de 50 páginas para abordar todos os detalhes necessários, sem falar nas discussões preliminares ...
Boa sorte!