Teste de qualidade do ajuste em regressão logística; qual 'ajuste' queremos testar?

Refiro-me à pergunta e suas respostas: Como comparar a capacidade preditiva (probabilidade) de modelos desenvolvidos a partir de regressão logística? por @Clark Chong e respostas / comentários por @Frank Harrell. e à pergunta Graus de liberdade de no teste de Hosmer-Lemeshow $\chi^2$ e os comentários.

Eu li o artigo DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "Uma comparação de testes de qualidade de ajuste para o modelo de regressão logística", Statistics in Medicine, vol. 16, 965-980 (1997) .

Após a leitura, fiquei confuso porque a pergunta a que me referi solicita explicitamente "capacidade preditiva (probabilidade)", o que, na minha opinião, não é o mesmo que o que os testes de qualidade de ajuste no artigo acima visam:

Como muitos de nós sabemos, a regressão logística assume uma ligação em forma de S entre as variáveis explicativas e a probabilidade de sucesso; a forma funcional da forma em S é

$P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}}$

Sem fingir que não há falhas no teste de Hosmer-Lemeshow, acho que precisamos distinguir entre os testes para (a) 'capacidade preditiva (probabilidade) ' e (b) ' qualidade do ajuste '.

O objetivo do primeiro é testar se as probabilidades são bem previstas, enquanto os testes de adequação testam se a função em forma de S acima é a função 'certa'. Mais formalmente:

testes para 'testes de capacidade preditiva de probabilidade' têm um afirmando que as probabilidades de sucesso são bem previstas pelo modelo; $H_0$
enquanto nos testes de qualidade de ajuste é (veja Hosmer et al.) que a forma funcional em forma de S supra é a correta. Hosmer et al. execute simulações onde eles encontrarem o poder de detectar dois tipos de desvios do nulo, a saber, que a função de link está incorreta ou que o expoente no denominador não é linear. $H_0$

Obviamente, se a função acima tiver a forma funcional 'certa' (por isso, se os testes concluírem que podemos aceitar para o teste de ajuste), as probabilidades previstas serão boas, ... $H_0$

Primeira observação

... no entanto, aceitar o é uma conclusão fraca, conforme explicado em O que se segue se falharmos em rejeitar a hipótese nula? . $H_0$

Primeira pergunta

A pergunta / observação mais importante que tenho é que, se a qualidade do ajuste for rejeitada, a conclusão do teste é que a forma funcional não era a 'correta', no entanto, isso implica que as probabilidades não estão bem previstos? $H_0$

Segunda questão

Além disso, quero apontar para as conclusões de Hosmer et. al; (Cito o resumo):

'' Um exame do desempenho dos testes quando o modelo correto tem um termo quadrático, mas um modelo contendo apenas o termo linear foi adequado mostra que o qui-quadrado de Pearson, a soma dos quadrados não ponderada, o decil de Hosmer-Lemeshow de risco, a soma dos quadrados residuais suavizados e o teste de pontuação de Stukel, têm potência superior a 50% para detectar desvios moderados da linearidade quando o tamanho da amostra é 100 e potência acima de 90% para essas mesmas alternativas para amostras do tamanho 500 Todos os testes não tiveram poder quando o modelo correto teve uma interação entre uma covariável dicotômica e contínua, mas apenas o modelo covariável contínuo foi adequado. A potência para detectar um link especificado incorretamente era baixa para amostras de tamanho 100. Para amostras de tamanho 500 Stukel ' O teste de pontuação de s teve a melhor potência, mas excedeu apenas 50% para detectar uma função de ligação assimétrica. O poder do teste de soma de quadrados não ponderado para detectar uma função de link especificada incorretamente era um pouco menor que o teste de pontuação de Stukel ''

Posso concluir com isso que teste tem mais poder ou que Hosmer-Lemeshow tem menos poder (para detectar essas anomalias específicas)?

Segunda observação

$H_1$ $H_1$

— Comunidade
fonte

$R^2$

Os testes de qualidade de ajuste devem ter um poder razoável contra uma variedade de alternativas, em vez de um poder superior contra uma alternativa específica; portanto, as pessoas que comparam o poder de diferentes testes tendem a adotar a abordagem pragmática de escolher algumas alternativas que são consideradas de interesse particular para os usuários em potencial (veja, por exemplo, o frequentemente citado Stephens (1974), "Estatísticas do FED para a adequação do ajuste" e algumas comparações ", JASA, 69 , 347 ). Você não pode concluir que um teste é mais poderoso que outro contra todas as alternativas possíveis, porque é mais poderoso contra algumas.

— Scortchi - Restabelecer Monica
fonte

Em alguns casos, pode ser demonstrado que um teste é 'uniformemente mais poderoso', o que significa que é mais poderoso para todas as alternativas possíveis (cfr teorema de Karlin / Rubin). Mas você está certo de que isso ocorre apenas em casos excepcionais e certamente não no cenário para o teste de Hosmer-Lemeshow.

Em geral, "bondade de ajuste" é dada muita ênfase ao IMHO. Uma alternativa melhor é ajustar o modelo com antecedência. Isso é feito usando splines de regressão para relaxar as suposições de linearidade e incluindo interações que fariam sentido.

— Frank Harrell

@fcoppens: Bom ponto! Você só obtém testes UMP restringindo severamente as alternativas sob consideração aos valores de um parâmetro escalar e, mesmo assim, nem sempre. Mesmo considerando se um teste é inadmissível - há pelo menos outro teste com maior poder em todas as alternativas - exigiria restringir demais as alternativas para um teste GOF de uso geral.

— Scortchi - Restabelecer Monica