Eu tenho um modelo de regressão logística treinado que estou aplicando a um conjunto de dados de teste. A variável dependente é binária (booleana). Para cada amostra no conjunto de dados de teste, aplico o modelo de regressão logística para gerar uma% de probabilidade de que a variável dependente seja verdadeira. Depois, registro se o valor acutal era verdadeiro ou falso. Estou tentando calcular uma figura ou ajustado como em um modelo de regressão linear.
Isso me fornece um registro para cada amostra no conjunto de testes, como:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Eu estou querendo saber como testar a precisão do modelo. Minha primeira tentativa foi usar uma tabela de contingência e dizer "se prob_value_is_true
> 0,80, acho que o valor real é verdadeiro" e depois medir a proporção de classificações corretas para incorretas. Mas não gosto disso, porque parece mais que estou apenas avaliando o 0,80 como um limite, não a precisão do modelo como um todo e em todos os prob_value_is_true
valores.
Tentei apenas olhar para cada valor discreto prob_value_is_true, como um exemplo, olhando para todas as amostras em que prob_value_is_true
= 0,34 e medindo a% daquelas amostras em que o valor acutal é verdadeiro (nesse caso, a precisão perfeita seria se a% de amostras isso era verdade = 34%). Eu poderia criar uma pontuação de precisão do modelo somando a diferença em cada valor discreto de prob_value_is_true
. Mas o tamanho das amostras é uma grande preocupação aqui, especialmente para os extremos (chegando a 0% ou 100%), de modo que as médias dos valores acutais não sejam precisas, portanto, usá-las para medir a precisão do modelo não parece correto.
Eu até tentei criar faixas enormes para garantir tamanhos de amostra suficientes (0-.25, .25-.50, .50-.75, .75-1.0), mas como medir a "bondade" dessa% do valor real me surpreende . Digamos que todas as amostras prob_value_is_true
entre 0,25 e 0,50 tenham uma média acutal_value
de 0,45. Isso é bom, já que está no intervalo? Ruim, já que não é perto de 37,5% (o centro da faixa)?
Portanto, estou preso ao que parece ser uma pergunta fácil, e espero que alguém possa me indicar um recurso ou método para calcular uma precisão estástica para um modelo de regressão logística.