Entendo que uma das razões pelas quais a regressão logística é freqüentemente usada para prever taxas de cliques na Web é que ela produz modelos bem calibrados. Existe uma boa explicação matemática para isso?
Entendo que uma das razões pelas quais a regressão logística é freqüentemente usada para prever taxas de cliques na Web é que ela produz modelos bem calibrados. Existe uma boa explicação matemática para isso?
Respostas:
Sim.
O vetor de probabilidade previsto da regressão logística satisfaz a equação da matriz
Especializada na coluna de interceptação (que é uma linha na matriz transposta), a equação linear associada é
portanto, a probabilidade média geral prevista é igual à média da resposta.
Acho que posso fornecer uma explicação fácil de entender da seguinte maneira:
Isso significa que, se o modelo for totalmente treinado, as probabilidades previstas que obtemos para o conjunto de treinamento se espalharão para que, para cada recurso, a soma dos valores ponderados (todos) desse recurso seja igual à soma dos valores desse recurso. das amostras positivas.
Podemos ver obviamente que a regressão logística está bem calibrada.
Referência: Modelos Log-lineares e Campos Aleatórios Condicionais de Charles Elkan