Por que a regressão logística produz modelos bem calibrados?

Entendo que uma das razões pelas quais a regressão logística é freqüentemente usada para prever taxas de cliques na Web é que ela produz modelos bem calibrados. Existe uma boa explicação matemática para isso?

regression logistic

— lsankar4033
fonte

regressão logística feita para prever probabilidades -> que levam a previsões calibradas, se não super ajustadas. enquanto os modelos de aprendizagem mais máquinas não prever probabilites, mas sim um aulas - e há alguma contorção para pseudo-probabilites derivados dessas previsões -> daí, note bem calibrados

— charles

Eu deveria ter esclarecido a questão, mas minha pergunta era mais sobre o porquê de a LR ser tão útil para prever probabilidades.

— precisa saber é o seguinte

Vale a pena notar que você pode simplesmente ajustar uma regressão logística à saída de um classificador mal calibrado para obter um modelo calibrado. Isso é chamado de Escala de Platt en.wikipedia.org/wiki/Platt_scaling

— generic_user

Respostas:

Sim.

O vetor de probabilidade previsto da regressão logística satisfaz a equação da matriz $p$

X^{t} (p - y) = 0

$X^t(p - y) = 0$

$X$ $y$ $X$

Especializada na coluna de interceptação (que é uma linha na matriz transposta), a equação linear associada é

\sum_{i} (p_{i} - y_{i}) = 0

$\sum_i( p_i - y_i) = 0$

portanto, a probabilidade média geral prevista é igual à média da resposta.

$x_{ij}$

\sum_{i} x_{i j} (p_{i} - y_{i}) = \sum_{i ∣ x_{i j} = 1} (p_{i} - y_{i}) = 0

$\sum_i x_{ij}(p_i - y_i) = \sum_{i \mid x_{ij} = 1}(p_i - y_i) = 0$

$x_{ij} = 1$

— Matthew Drury
fonte

p

$p$

1 / (1 + \exp (- x))

$1/(1+\exp(-x))$

Sim, p é dessa forma. A primeira equação vem do ajuste da derivada da função de perda para zero.

— Matthew Drury

Isso trata apenas da calibração em tamanho grande, que não é o que queremos: calibração em tamanho pequeno.

— Frank Harrell

@FrankHarrell Cuidados para elaborar? Eu nunca ouvi esses termos antes.

— Matthew Drury

Há uma longa história na literatura de previsão de probabilidade datada pelo Serviço Meteorológico dos EUA de 1950 - foi aí que o Brier foi usado pela primeira vez. Calibração no pequeno significa que, se analisados os riscos previstos de 0,01, 0,02, ..., 0,99, cada um deles é preciso, ou seja, para todos os momentos em que o risco previsto foi de 0,4, o resultado ocorreu em cerca de 0,4 A Hora. Eu chamo de "calibração minúscula" o próximo passo: para os homens em que a previsão era de 0,4, o resultado era 0,4 do tempo, depois para as mulheres.

— 22818 Frank Harrell

Acho que posso fornecer uma explicação fácil de entender da seguinte maneira:

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))]

$J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right]$
m

y^{(i)}

$y^{(i)}$

h_{θ} (x^{(i)})

$h_{\theta}(x^{(i)})$

\frac{1}{1 + \exp [- α - \sum_{j} θ_{j} x_{j}^{(i)}]}

$\frac{1}{1+\exp[-\alpha -\sum_j \theta_j x^{(i)}_j]}$

α

$\alpha$

$\theta_j$

\frac{\partial J (θ)}{\partial θ_{j}} = \frac{1}{m} \sum_{i = 1}^{m} [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)}

$\frac{\partial J(\theta)}{\partial \theta_j}=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) x_{j}^{(i)} = \sum_{i = 1}^{m} y^{(i)} x_{j}^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_j^{(i)}=\sum_{i=1}^m y^{(i)}\,x_j^{(i)}$

Isso significa que, se o modelo for totalmente treinado, as probabilidades previstas que obtemos para o conjunto de treinamento se espalharão para que, para cada recurso, a soma dos valores ponderados (todos) desse recurso seja igual à soma dos valores desse recurso. das amostras positivas.

$\alpha$ $x_0$ $\alpha$ $\theta_0$

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) x_{0}^{(i)} = \sum_{i = 1}^{m} y^{(i)} x_{0}^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_0^{(i)}=\sum_{i=1}^m y^{(i)}\,x_0^{(i)}$

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) = \sum_{i = 1}^{m} y^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)=\sum_{i=1}^m y^{(i)}$

h_{θ} (x^{(i)})

$h_\theta\left(x^{(i)}\right)$

\sum_{i = 1}^{m} p^{(i)} = \sum_{i = 1}^{m} y^{(i)}

$\sum_{i=1}^m p^{(i)} =\sum_{i=1}^m y^{(i)}$

Podemos ver obviamente que a regressão logística está bem calibrada.

Referência: Modelos Log-lineares e Campos Aleatórios Condicionais de Charles Elkan

— Lerner Zhang
fonte