Como escolher a largura ideal da bandeja ao calibrar modelos de probabilidade?

12

Antecedentes: Existem algumas ótimas perguntas / respostas aqui sobre como calibrar modelos que preveem as probabilidades de um resultado acontecer. Por exemplo

Brier score , e sua decomposição em resolução, incerteza e confiabilidade .
Gráficos de calibração e regressão isotônica .

Esses métodos geralmente exigem o uso de um método de binning nas probabilidades previstas, para que o comportamento do resultado (0, 1) seja suavizado sobre o bin, obtendo o resultado médio.

Problema: No entanto, não consigo encontrar nada que me instrua sobre como escolher a largura da bandeja.

Pergunta: Como escolho a largura ideal da bandeja?

Tentativa: Duas larguras comuns de compartimento em uso parecem ser:

Binning de largura igual, por exemplo, 10 escaninhos, cada um cobrindo 10% do intervalo [0, 1].
O método de bineamento de Tukey discutido aqui .

Mas essas escolhas das caixas são as mais ideais se alguém estiver interessado em encontrar intervalos nas probabilidades previstas mais mal calibradas?

— Alex
fonte

1

Se o resultado "1" for raro, vale a pena considerar dividir em posições com número igual de "1" s em vez de igual número de amostras. Isso pode ajudar com a manutenção da discriminação (AUC) do modelo após a calibração

— ihadanny

4

Qualquer método estatístico que use binning foi considerado obsoleto. A estimativa da curva de calibração contínua é comum desde meados dos anos 90. Os métodos comumente usados são loess (com a detecção de outlier desativada), calibração logística linear e calibração logística spline. Abordo isso detalhadamente no livro Estratégias de modelagem de regressão e nas notas do curso. Consulte http://www.fharrell.com/p/blog-page.html . O rmspacote R facilita a obtenção de curvas de calibração não paramétricas suaves, usando uma amostra externa independente ou usando o bootstrap na amostra de desenvolvimento do modelo original.

— Frank Harrell
fonte

0

Na minha experiência, o binning é bom para visualizar distribuições de probabilidade, mas geralmente é uma má idéia, se alguém quiser usá-lo para testes estatísticos e / ou inferência de parâmetros. Principalmente porque se limita imediatamente a precisão pela largura da bandeja. Outro problema comum é quando a variável não é vinculada, ou seja, é preciso introduzir pontos de corte baixo e alto.

Trabalhar com distribuições cumulativas no espírito Kolmogorov-Smirnov contorna muitos desses problemas. Também existem muitos bons métodos estatísticos disponíveis neste caso. (consulte, por exemplo, https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test )

— Vadim
fonte