Por que a regressão logística é bem calibrada e como prejudicar sua calibração?

Nos documentos de aprendizado do scikit sobre calibração de probabilidade, eles comparam a regressão logística com outros métodos e observam que a floresta aleatória é menos bem calibrada que a regressão logística.

Por que a regressão logística é bem calibrada? Como alguém poderia arruinar a calibração de uma regressão logística (não que alguém queira - apenas como um exercício)?

regression logistic calibration

— user0
fonte

Respostas:

Embora esta questão e sua primeira resposta pareçam estar focadas em questões teóricas da calibração do modelo de regressão logística, a questão de:

Como alguém poderia arruinar a calibração de uma regressão logística ...?

merece alguma atenção com relação às aplicações do mundo real, para futuros leitores desta página. Não devemos esquecer que o modelo de regressão logística deve ser bem especificado e que esse problema pode ser particularmente problemático para a regressão logística.

Primeiro, se as probabilidades de log da associação de classe não estiverem linearmente relacionadas aos preditores incluídos no modelo, não serão bem calibrados. O capítulo 10 de Harrell sobre Regressão logística binária dedica cerca de 20 páginas a "Avaliação do ajuste do modelo", para que se possa tirar proveito da "imparcialidade assintótica do estimador de probabilidade máxima", como @whuber colocou na prática.

Segundo, a especificação do modelo é uma questão específica na regressão logística, pois possui um viés de variável omitido inerente que pode surpreender aqueles com experiência em regressão linear comum. Como a página diz:

As variáveis omitidas influenciarão os coeficientes nas variáveis incluídas, mesmo que as variáveis omitidas não estejam correlacionadas com as variáveis incluídas.

Essa página também possui uma explicação útil do motivo pelo qual esse comportamento é esperado, com uma explicação teórica para modelos de probit relacionados, analiticamente tratáveis. Portanto, a menos que você saiba que incluiu todos os preditores relacionados à participação na turma, poderá se deparar com perigos de erros de especificação e má calibração na prática.

Com relação à especificação do modelo, é bem possível que métodos baseados em árvores, como floresta aleatória, que não assumem linearidade em toda uma gama de valores preditores e forneçam inerentemente a possibilidade de encontrar e incluir interações entre preditores, acabem com uma melhor modelo calibrado na prática do que um modelo de regressão logística que não leva suficientemente em consideração os termos de interação ou a não linearidade. Com relação ao viés da variável omitida, não está claro para mim se algum método para avaliar as probabilidades de associação de classe pode lidar adequadamente com esse problema.

— EdM
fonte

A regressão logística é um método de classificação que basicamente aprende uma função de probabilidade no espaço de entrada, ajustando os parâmetros . Se as probabilidades previstas são aprendidas com a função de perda apropriada, a regressão logística tem o potencial de aprender uma estimativa imparcial das probabilidades de eventos binários, sempre que houver capacidade suficiente (recursos de entrada). $\pi_\theta(x)$ $\theta$

A perda de log permite uma estimativa imparcial. Considere o fato de que a função de perda de log é simplesmente a probabilidade negativa de log de uma distribuição de Bernoulli . A estimativa da probabilidade máxima para é imparcial, dado um conjunto de observações para a variável . No caso de classificação em algum espaço de entrada , pode-se imaginar ter uma distribuição de Bernoulli para todos os pontos em $z \thicksim \text{Ber}(p)$ $p$ $z$ $\mathcal{X}$ $\mathcal{X}$ $y_i$ $x_i$ $y_i \thicksim \text{Ber}(\pi(x_i))$ $\pi_\theta$ $\pi_\theta$ $\pi^*$

O uso de um modelo de observação incorreto com a regressão logística levará a probabilidades não calibradas. A modelagem de eventos binários com uma distribuição normal é inadequada e não deve ser usada em combinação com a regressão logística. A função de perda correspondente ao modelo de observação de distribuição normal é o erro médio quadrático. Assim, o uso de uma perda MSE dificultaria certamente sua calibração.

— cortax
fonte

Chamada cuidadosa de regressão logística como método de classificação neste site! Obrigado pela resposta - parece que você está sugerindo que o objetivo de perda de log é o motivo da calibração (assumindo que o modelo seja adequadamente flexível)?

— User0

Um acompanhamento - você diz que a calibração requer uma estimativa imparcial da probabilidade - daí a penalização arruinar a calibração?

— precisa saber é

«LogisticRegression retorna previsões bem calibradas por padrão, pois otimiza diretamente a perda de log» - scikit-learn.org/stable/modules/calibration.html

— cortax

Por definição, penalização ou regularização, é uma injeção de viés que geralmente procura reduzir a variação do estimador. Uma regularização maciça pode dominar a parte dos dados da função objetivo e, definitivamente, arruinar a calibração.

— Cortax

A citação do scikit-learn sobre "otimiza a perda de log" não é uma explicação eficaz, porque não há conexão necessária entre isso e ser imparcial. A menos que eu esteja enganado, a resposta correta para a pergunta precisará invocar a imparcialidade assintótica do estimador de probabilidade máxima normalmente usado em procedimentos de regressão logística.

— whuber