Intervalo de previsão com base na validação cruzada (CV)

Nos livros de texto e nas palestras do youtube, aprendi muito sobre modelos iterativos, como impulsionar, mas nunca vi nada sobre derivar um intervalo de previsão.

A validação cruzada é usada para o seguinte:

Seleção de modelo : experimente diferentes modelos e escolha o que melhor se adapta. No caso de aumento, use CV para selecionar os parâmetros de ajuste.
Avaliação do modelo : estimar o desempenho do modelo selecionado

Vários parâmetros são importantes na avaliação do modelo, um deles é o erro de previsão esperado. A validação cruzada fornece uma boa estimativa do erro de previsão, conforme descrito no livro "Os elementos do aprendizado estatístico".

Mas como usamos o erro de previsão esperado para criar um intervalo de previsão?

E se você prever o preço de uma casa, por exemplo, o intervalo de previsão será maior para uma casa de 500.000 € em comparação com uma casa de 200.000 €. Como estimamos esses intervalos de previsão usando validação cruzada?

cross-validation boosting prediction-interval

— Kasper
fonte

Este é um passo na boa direção: blog.datadive.net/prediction-intervals-for-random-forests

— Kasper

Eu acho que o que você está procurando são previsões conformes. Veja o artigo de Shafer e Vovk jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf .

— Alexey Zaytsev

Poderia explicar por que você acredita que o intervalo de previsão seria "maior" para uma casa de 500 mil em comparação a uma casa de 200 mil? Isso é uma função do número de amostras? Você pode supor que as amostras são retiradas da distribuição total?

— Justinotherbrain

Depois de ler essa pergunta novamente, posso lhe dar o seguinte limite:

Consideram-se os amostras são recolhidas iid, a distribuição é fixa, e a perda é delimitada por , em seguida, com uma probabilidade de, pelo menos, , $B$ $1 - \delta$

E [E (h)] \leq \hat{E} (h) + B \sqrt{\frac{registro \frac{1}{δ}}{2 m}}

$\mathbb{E}[\mathcal{E}(h)] \leq \hat{\mathcal{E}}(h) + B\sqrt{\frac{\log \frac{1}{\delta}}{2m}}$

onde é o tamanho da amostra e é a confiança. O limite é trivial pela desigualdade de McDiarmid. $m$ $1-\delta$

é o tamanho da amostra, é a generalização de erro, e é o erro de teste por hipótese. $m$ $\mathbb{E}[\mathcal{E}(h)]$ $\hat{\mathcal{E}}(h)$

Por favor, não relate apenas o erro de validação cruzada nem o erro de teste, eles geralmente não fazem sentido, pois são apenas estimativas pontuais.

Post antigo para registro:

Não sei se entendi completamente sua pergunta, mas vou tentar.

Primeiro, não tenho certeza de como você definiria um intervalo de previsão para a seleção de modelos, pois, como eu o entendo, os intervalos de previsão fazem algumas suposições de distribuição. Em vez disso, você pode derivar desigualdades de concentração, que essencialmente vinculam uma variável aleatória por sua variação para alguma probabilidade. As desigualdades de concentração são usadas durante o aprendizado de máquina, incluindo a teoria avançada para impulsionar. Nesse caso, você deseja vincular o erro de generalização (seu erro em geral, pontos que não viu) pelo seu erro empírico (seu erro no conjunto de testes) mais algum termo de complexidade e um termo relacionado à variação.

Agora, preciso dissipar um mal-entendido sobre a validação cruzada que é extremamente comum. A validação cruzada fornecerá apenas uma estimativa imparcial do erro esperado de um modelo PARA UM TAMANHO DE AMOSTRA FIXA. A prova disso funciona apenas para o protocolo de exclusão. Na verdade, isso é bastante fraco, pois não fornece informações sobre a variação. Por outro lado, a validação cruzada retornará um modelo mais próximo da solução estrutural de minimização de risco, que é a melhor solução teoricamente. Você pode encontrar a prova no apêndice aqui: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

Então, como derivar um limite de generalização? (Lembre-se de que um limite de generalização é basicamente um intervalo de previsão sobre o erro de generalização para um modelo específico). Bem, esses limites são específicos ao algoritmo. Infelizmente, existe apenas um livro que estabelece limites para todos os algoritmos comumente usados no aprendizado de máquina (incluindo o aumento). O livro é Fundamentos do aprendizado de máquina (2012) de Mohri, Rostamizadeh e Talwalkar. Para slides de palestras que cobrem o material, você pode encontrá-los na página de Mohri na Web: http://www.cs.nyu.edu/~mohri/ml14/

Embora o Elements of Statistical Learning seja um livro importante e um tanto útil, ele não é muito rigoroso e omite muitos detalhes técnicos muito importantes sobre os algoritmos e omite completamente qualquer tipo de limite de generalização. O Foundations of Machine Learning é o livro mais abrangente sobre aprendizado de máquina (o que faz sentido, visto que foi escrito por alguns dos melhores da área). No entanto, o livro é avançado, portanto, tenha cuidado com detalhes técnicos.

A generalização vinculada ao aumento pode ser encontrada (com prova) aqui: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

Espero que sejam indicadores suficientes para responder à sua pergunta. Estou hesitante em dar uma resposta completa, pois levará cerca de 50 páginas para abordar todos os detalhes necessários, sem falar nas discussões preliminares ...

Boa sorte!

— justanotherbrain
fonte

Portanto, se eu entendi bem, isso fornece um limite superior para o erro de generalização para qualquer quantil, em toda a distribuição (com base em algumas suposições). No entanto, eu não entendo sua frase "Por favor, não relate o erro de validação cruzada nem o erro de teste". Você quer dizer que essas duas medidas são inúteis ou são apenas inúteis para tentar encontrar um intervalo de previsão?

— 22417 LouisBBBB

O erro CV e o erro de teste do @LouisBBBB são como relatar uma média de amostra. Normalmente, é uma prática ruim relatar a média da amostra sem algum tipo de intervalo de confiança, porque toda vez que eu executar o experimento, obterei um resultado diferente. Eu disse sem sentido, mas talvez "inútil" seja melhor ... Alguém poderia argumentar que há algum significado em uma estimativa pontual (ou seja, a definição). Mas as estimativas pontuais, em geral, são "inúteis" no sentido de que não caracterizam a distribuição do erro de "maneira útil". "Útil" no contexto de tomada de decisões.

— Justinotherbrain

Eu acho que entendo o que você diz. Então, você prefere analisar a distribuição dos erros em vez da média. E se eu voltar à pergunta, o Kasper queria estimativas de intervalos de previsão "por ponto". Sua resposta foi um limite superior global para a duração do intervalo de previsão (ou algo próximo), está certo? Então, você conhece uma maneira de obter um limite superior local?

— 21417 LouisBBBB

Ah - obrigado por esclarecer. Acho que não entendi a pergunta de @ Kasper e tenho muitas perguntas de acompanhamento. Obrigado por apontar isso, vou fazer algumas escavações.

— Justinotherbrain