Como obter uma pontuação de confiança para as previsões?

Em um problema de regressão, é possível calcular uma pontuação de confiança / confiabilidade para uma determinada previsão, considerando modelos como XGBoost ou Neural Networks?

— Rodrigo Nader
fonte

Independentemente do modelo, você sempre pode usar o bootstrap não paramétrico para construir um intervalo de confiança para qualquer parâmetro, incluindo previsões (que são na verdade variáveis aleatórias em si, mas são relatadas como expectativas). Aqui está o procedimento geral:

Deixei $N$ denotar o número de observações em seus dados de treinamento $X$ e $x_j$ denotar a observação específica cuja previsão, $\hat{y}_j$ , você deseja um IC para.
Deixei $K$ denota um número de iterações de reamostragem (deve ser $\ge 20$ para um IC com cobertura $\ge 95\%$ )
Para $i$ no $K$ , desenhe um $N$ amostras aleatórias de $X$ com substituição. Denote isso $X_i^{*}$
Treine um modelo $X_i^{*}$ e use esse modelo para formar uma previsão sobre $x_j$ . Ligue para isso $\hat{y}^{*}_{ji}$
Estimar parâmetros distributivos para $\hat{y}_j$ da sua amostra. UMA $100 - \alpha$ O IC é dado pelo $\frac{\alpha}{2}$ e $100 - \frac{\alpha}{2}$ percentis de $\hat{y}^{*}_{j}$ .

— David Marx
fonte

Existe uma maneira de obter esse intervalo de confiança para um modelo que já está treinado?

— Rodrigo Nader

Não que eu saiba. Se você fingir que seus resíduos são iid (provavelmente não estão com esses modelos), você pode estimar a distribuição dos resíduos diretamente e daí derivar intervalos de previsão. Não tenho certeza se isso atende às suas necessidades. Se você está tentando identificar quais previsões o seu modelo tem mais ou menos "certeza", isso não lhe dará isso.

— David Marx

@davidmarx Por que precisamos da suposição iid? se tivermos dados de validação suficientes, não podemos considerar os erros como o parâmetro a ser estimado e criar um segundo modelo de regressão para estimar?

— ihadanny