AIC e estatística c estão tentando responder a perguntas diferentes. (Também alguns problemas com a estatística-c foram levantados nos últimos anos, mas vou falar disso como um aparte)
A grosso modo:
- A AIC está lhe dizendo o quão bom seu modelo se encaixa para um custo específico de má classificação.
- A AUC está lhe dizendo o quão bom seu modelo funcionaria, em média, em todos os custos de classificação incorreta.
Quando você calcula a AIC, trata sua logística dando uma previsão de, por exemplo, 0,9 como uma previsão de 1 (ou seja, mais provável que 1 que 0), no entanto, não precisa ser. Você pode obter sua pontuação logística e dizer "qualquer coisa acima de 0,95 é 1, tudo abaixo é 0". Por que você faria isso? Bem, isso garantiria que você apenas preveja uma quando estiver realmente realmente confiante. Sua taxa de falso positivo será realmente muito baixa, mas seu falso negativo disparará. Em algumas situações, isso não é algo ruim - se você vai acusar alguém de fraude, provavelmente quer ter muita certeza primeiro. Além disso, se for muito caro acompanhar os resultados positivos, você não deseja muitos deles.
É por isso que se relaciona com custos. Existe um custo quando você classifica um 1 como 0 e um custo quando classifica um 0 como 1. Normalmente (assumindo que você usou uma configuração padrão), o AIC para regressão logística refere-se ao caso especial em que ambas as classificações incorretas são igualmente dispendioso. Ou seja, a regressão logística fornece o melhor número geral de previsões corretas, sem nenhuma preferência por positivo ou negativo.
A curva ROC é usada porque isso representa o positivo verdadeiro contra o falso positivo, a fim de mostrar como o classificador funcionaria se você a usasse sob diferentes requisitos de custo. A estatística c ocorre porque qualquer curva ROC estritamente acima de outra é claramente um classificador dominante. Portanto, é intuitivo medir a área sob a curva como uma medida da qualidade geral do classificador.
Então, basicamente, se você conhece seus custos ao ajustar o modelo, use AIC (ou similar). Se você está apenas construindo uma pontuação, mas não especificando o limiar de diagnóstico, são necessárias abordagens da AUC (com a seguinte ressalva sobre a própria AUC).
Então, o que há de errado com estatística c / AUC / Gini?
Por muitos anos, a AUC foi a abordagem padrão e ainda é amplamente utilizada, no entanto, existem vários problemas com ela. Uma coisa que o tornou particularmente atraente foi o fato de corresponder a um teste de Wilcox nas fileiras das classificações. Ou seja, mede a probabilidade de a pontuação de um membro escolhido aleatoriamente de uma classe ser maior do que um membro escolhido aleatoriamente da outra classe. O problema é que quase nunca é uma métrica útil.
Os problemas mais críticos com a AUC foram divulgados por David Hand alguns anos atrás. (Veja as referências abaixo) O ponto crucial do problema é que, embora a AUC calcule a média de todos os custos, porque o eixo x da curva ROC é a taxa de falsos positivos, o peso que ele atribui aos diferentes regimes de custo varia entre os classificadores. Portanto, se você calcular a AUC em duas regressões logíticas diferentes, ela não medirá "a mesma coisa" nos dois casos. Isso significa que faz pouco sentido comparar modelos com base na AUC.
Hand propôs um cálculo alternativo usando uma ponderação de custo fixo e chamou isso de medida H - existe um pacote em R chamado hmeasure
que executará esse cálculo, e acredito que a AUC para comparação.
Algumas referências sobre os problemas com a AUC:
Quando a área sob a curva de característica operacional do receptor é uma medida apropriada do desempenho do classificador? Mão de DJ, C. Anagnostopoulos Cartas de reconhecimento de padrões 34 (2013) 492–495
(Eu achei essa uma explicação particularmente acessível e útil)