Qual é a diferença no que a AIC e a c-estatística (AUC) realmente medem para o ajuste do modelo?

O Critério de Informação de Akaike (AIC) e a estatística-c (área sob a curva ROC) são duas medidas de ajuste do modelo para a regressão logística. Estou tendo problemas para explicar o que está acontecendo quando os resultados das duas medidas não são consistentes. Eu acho que eles estão medindo aspectos ligeiramente diferentes do ajuste do modelo, mas quais são esses aspectos específicos?

Eu tenho 3 modelos de regressão logística. O modelo M0 possui algumas covariáveis padrão. O modelo M1 adiciona X1 a M0; o modelo M2 adiciona X2 a M0 (para que M1 e M2 não sejam aninhados).

A diferença na AIC de M0 para M1 e M2 é de cerca de 15, indicando que X1 e X2 melhoram o ajuste do modelo e aproximadamente a mesma quantidade.

as estatísticas c são: M0, 0,70; M1, 0,73; M2 0,72. A diferença na estatística-c de M0 para M1 é significativa (método de DeLong et al 1988), mas a diferença de M0 para M2 não é significativa, indicando que X1 melhora o ajuste do modelo, mas X2 não.

X1 não é coletado rotineiramente. O X2 deve ser coletado rotineiramente, mas está ausente em cerca de 40% dos casos. Queremos decidir se devemos começar a coletar X1, melhorar a coleta de X2 ou eliminar as duas variáveis.

Da AIC, concluímos que as variáveis melhoram de maneira semelhante ao modelo. Provavelmente é mais fácil melhorar a coleção do X2 do que começar a coletar uma variável completamente nova (X1), portanto, teríamos como objetivo melhorar a coleção do X2. Mas a partir da estatística c, X1 melhora o modelo e X2 não, portanto devemos esquecer o X2 e começar a coletar o X1.

Como nossa recomendação depende de qual estatística focamos, precisamos entender claramente a diferença no que eles estão medindo.

Qualquer conselho bem-vindo.

— timbp
fonte

Respostas:

AIC e estatística c estão tentando responder a perguntas diferentes. (Também alguns problemas com a estatística-c foram levantados nos últimos anos, mas vou falar disso como um aparte)

A grosso modo:

A AIC está lhe dizendo o quão bom seu modelo se encaixa para um custo específico de má classificação.
A AUC está lhe dizendo o quão bom seu modelo funcionaria, em média, em todos os custos de classificação incorreta.

Quando você calcula a AIC, trata sua logística dando uma previsão de, por exemplo, 0,9 como uma previsão de 1 (ou seja, mais provável que 1 que 0), no entanto, não precisa ser. Você pode obter sua pontuação logística e dizer "qualquer coisa acima de 0,95 é 1, tudo abaixo é 0". Por que você faria isso? Bem, isso garantiria que você apenas preveja uma quando estiver realmente realmente confiante. Sua taxa de falso positivo será realmente muito baixa, mas seu falso negativo disparará. Em algumas situações, isso não é algo ruim - se você vai acusar alguém de fraude, provavelmente quer ter muita certeza primeiro. Além disso, se for muito caro acompanhar os resultados positivos, você não deseja muitos deles.

É por isso que se relaciona com custos. Existe um custo quando você classifica um 1 como 0 e um custo quando classifica um 0 como 1. Normalmente (assumindo que você usou uma configuração padrão), o AIC para regressão logística refere-se ao caso especial em que ambas as classificações incorretas são igualmente dispendioso. Ou seja, a regressão logística fornece o melhor número geral de previsões corretas, sem nenhuma preferência por positivo ou negativo.

A curva ROC é usada porque isso representa o positivo verdadeiro contra o falso positivo, a fim de mostrar como o classificador funcionaria se você a usasse sob diferentes requisitos de custo. A estatística c ocorre porque qualquer curva ROC estritamente acima de outra é claramente um classificador dominante. Portanto, é intuitivo medir a área sob a curva como uma medida da qualidade geral do classificador.

Então, basicamente, se você conhece seus custos ao ajustar o modelo, use AIC (ou similar). Se você está apenas construindo uma pontuação, mas não especificando o limiar de diagnóstico, são necessárias abordagens da AUC (com a seguinte ressalva sobre a própria AUC).

Então, o que há de errado com estatística c / AUC / Gini?

Por muitos anos, a AUC foi a abordagem padrão e ainda é amplamente utilizada, no entanto, existem vários problemas com ela. Uma coisa que o tornou particularmente atraente foi o fato de corresponder a um teste de Wilcox nas fileiras das classificações. Ou seja, mede a probabilidade de a pontuação de um membro escolhido aleatoriamente de uma classe ser maior do que um membro escolhido aleatoriamente da outra classe. O problema é que quase nunca é uma métrica útil.

Os problemas mais críticos com a AUC foram divulgados por David Hand alguns anos atrás. (Veja as referências abaixo) O ponto crucial do problema é que, embora a AUC calcule a média de todos os custos, porque o eixo x da curva ROC é a taxa de falsos positivos, o peso que ele atribui aos diferentes regimes de custo varia entre os classificadores. Portanto, se você calcular a AUC em duas regressões logíticas diferentes, ela não medirá "a mesma coisa" nos dois casos. Isso significa que faz pouco sentido comparar modelos com base na AUC.

Hand propôs um cálculo alternativo usando uma ponderação de custo fixo e chamou isso de medida H - existe um pacote em R chamado hmeasureque executará esse cálculo, e acredito que a AUC para comparação.

Algumas referências sobre os problemas com a AUC:

Quando a área sob a curva de característica operacional do receptor é uma medida apropriada do desempenho do classificador? Mão de DJ, C. Anagnostopoulos Cartas de reconhecimento de padrões 34 (2013) 492–495

(Eu achei essa uma explicação particularmente acessível e útil)

— Corone
fonte

E aqui está outro artigo de DJ Hand: Medindo o desempenho do classificador: uma alternativa coerente à área sob a curva ROC , Machine Learning (2009) 77: 103–123.

— chl

Era o que eu estava procurando - sim, esse foi o primeiro artigo importante sobre isso (embora eu ache que, consequentemente, seja direcionado a um público mais técnico do que alguns dos artigos posteriores).

— Corone

R^{2}

$R^2$

Estou confuso com a resposta de Corone, pensei que a AIC não tinha nada a ver com o desempenho preditivo de um modelo e que é apenas uma medida da probabilidade dos dados trocados com a complexidade do modelo.

— Zhubarb 28/10

@Berkan não tem certeza do que você quer dizer com "nada a ver com desempenho preditivo", a menos que você simplesmente queira dizer que é uma medida dentro da amostra e não fora da amostra? (Quanto maior a probabilidade, melhor "prediz" esses pontos de dados). O ponto é que o AIC é para uma função de probabilidade específica pré-escolhida, enquanto o AIC é uma média de um conjunto deles. Se você conhece a probabilidade (ou seja, limiar, custos, prevalência ...), pode usar o AIC.

— Corone 29/10

O documento da mão citado não tem base no uso do mundo real em diagnósticos clínicos. Ele tem uma curva teórica com uma AUC de 0,5, que é um classificador perfeito. Ele usa um único conjunto de dados do mundo real, em que os modelos seriam descartados, por serem tão ruins, e ao contabilizar os intervalos de confiança em torno das medições (dados não fornecidos, mas inferidos) provavelmente são aleatórios . Dada a falta de dados do mundo real (ou mesmo de simulação plausível), este é um artigo vazio. Pessoalmente, estive envolvido na análise de milhares de classificadores entre milhares de pacientes (com graus de liberdade suficientes). Nesse contexto, seus argumentos não são sensoriais.

Ele também é propenso a superlativos (não é um bom sinal em nenhum contexto) e faz generalizações sem suporte, por exemplo, os custos não podem ser conhecidos. Na medicina, existem custos que são aceitos, como valor preditivo positivo de 10% para testes de triagem e US $ 100.000 por ano de vida ajustado pela qualidade para intervenções terapêuticas. Acho difícil acreditar que, na pontuação de crédito, os custos não sejam bem compreendidos. Se ele está dizendo (claramente) que diferentes falsos positivos e falsos negativos individuais carregam custos diferentes, embora esse seja um tópico muito interessante, ele não se parece com classificadores binários.

Se o argumento dele é que a forma do ROC é importante, então, para usuários sofisticados, isso é óbvio, e usuários não sofisticados têm muito mais com o que se preocupar, por exemplo, incorporando a prevalência em valores preditivos positivos e negativos.

Por fim, não consigo entender como diferentes classificadores não podem ser julgados com base nos vários cortes do mundo real determinados pelo uso clínico (ou financeiro) dos modelos. Obviamente, diferentes pontos de corte seriam escolhidos para cada modelo. Os modelos não seriam comparados com base apenas nas AUCs. Os classificadores não importam, mas a forma da curva importa.

— user162905
fonte

-1

Para mim, a conclusão é que, embora a estatística C (AUC) possa ser problemática ao comparar modelos com diferentes variáveis independentes (análoga ao que Hand chama de "classificadores"), ainda é útil em outras aplicações. Por exemplo, estudos de validação em que o mesmo modelo é comparado entre diferentes populações de estudo (conjuntos de dados). Se um modelo ou índice / pontuação de risco mostrar-se altamente discriminante em uma população, mas não em outras, isso pode significar que não é uma ferramenta muito boa em geral, mas pode ser em casos específicos.

— Dave
fonte

R^{2}

$R^2$