Graus de liberdade de no teste de Hosmer-Lemeshow

A estatística de teste para o teste Hosmer-Lemeshow (HLT) para qualidade de ajuste (GOF) de um modelo de regressão logística é definida da seguinte forma:

A amostra é então dividida em , , por decil, um calcula as seguintes quantidades: $d=10$ $D_1, D_2, \dots , D_{d}$

$O_{1d}=\displaystyle \sum_{i \in D_d} y_i$ , ie o número observado de casos positivos no decil $D_d$ ;

$O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)$ , ou seja, o número observado de casos negativos no decil $D_d$ ;

$E_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i$ , isto é, o número estimado de casos positivos no decil $D_d$ ;

$E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)$ , ou seja, o número estimado de casos negativos no decil $D_d$ ;

onde $y_i$ é o resultado binário observado para a $i$ ésima observação e $\hat{\pi}_i$ a probabilidade estimada para essa observação.

A estatística de teste é então definida como:

$X^2 = \displaystyle \sum_{h=0}^{1} \sum_{g=1}^d \left( \frac{(O_{hg}-E_{hg})^2}{E_{hg}} \right)= \sum_{g=1}^d \left( \frac{ O_{1g} - n_g \hat{\pi}_g}{\sqrt{n_g (1-\hat{\pi}_g) \hat{\pi}_g}} \right)^2,$

onde $\hat{\pi}_g$ é a probabilidade média estimada no decil $g$ e seja $n_g$ o número de empresas no decil.

De acordo com Hosmer- Lemeshow (ver esta ligação ) esta estatística tem (sob certas premissas) um $\chi^2$ distribuição com $(d-2)$ graus de liberdade .

Por outro lado , se eu definisse uma tabela de contingência com $d$ linhas (correspondentes aos deciles) e 2 colunas (correspondentes ao resultado binário verdadeiro / falso), a estatística de teste para o $\chi^2$ para esta tabela de contingência seria o mesmo que o $X^2$ definido acima, no entanto, no caso da tabela de contingência, esta estatística de teste é $\chi^2$ com $(d-1)(2-1)=d-1$ graus de liberdade . Então, um grau de liberdade a mais !

Como alguém pode explicar essa diferença no número de graus de liberdade?

EDIT: adições após a leitura dos comentários:

@whuber

Eles dizem (ver Hosmer DW, Lemeshow S. (1980), Um teste de qualidade do ajuste para o modelo de regressão logística múltipla. Communications in Statistics, A10, 1043-1069 ) que existe um teorema demonstrado por Moore e Spruill a partir do qual segue-se que se (1) os parâmetros são estimados usando funções de probabilidade para dados não agrupados e (2) as frequências na tabela 2xg dependem dos parâmetros estimados, ou seja, as células são aleatórias, não fixas, que, em condições de regularidade apropriadas, A estatística da qualidade do ajuste em (1) e (2) é a de um qui-quadrado central com a redução usual de graus de liberdade devido a parâmetros estimados mais uma soma das variáveis ponderadas de qui-quadrado.

Então, se eu entendo bem o trabalho deles, eles tentam encontrar uma aproximação para esse 'termo de correção' que, se eu o entendo bem, é essa soma ponderada de variáveis aleatórias qui-quadrado e o faz fazendo simulações, mas eu devo admitir que não compreendo completamente o que eles dizem lá, daí a minha pergunta; por que essas células são aleatórias, como isso influencia os graus de liberdade? Seria diferente se eu fixasse as bordas das células e depois classificasse as observações em células fixas com base na pontuação estimada; nesse caso, as células não são aleatórias, embora o 'conteúdo' da célula seja?

@Frank Harell: não poderia ser que as 'deficiências' do teste de Hosmer-Lemeshow que você mencionou em seus comentários abaixo sejam apenas uma consequência da aproximação da soma ponderada de qui-quadrados ?

O livro contém uma descrição detalhada desse teste e a base para ele. Sua pergunta está totalmente respondida nas páginas 145-149. Determinar graus de liberdade em é uma coisa sutil, porque a maioria desses testes são aproximações (em primeiro lugar) e essas aproximações são boas apenas quando condições técnicas aparentemente menores se aplicam. Para alguma discussão sobre tudo isso, consulte stats.stackexchange.com/a/17148 . A H&L adotou uma rota puramente prática: eles baseiam sua recomendação do DF em "um extenso conjunto de simulações".

χ^{2}

$\chi^2$

d - 2

$d-2$

— whuber

Esse teste agora é considerado obsoleto devido a (1) falta de energia, (2) restrição de probabilidades contínuas e (3) arbitrariedade na escolha da exclusão e escolha da definição de decil. Recomenda-se o teste Hosmer - le Cessie 1 df ou Spiegelhalter. Veja, por exemplo, o rmspacote residuals.lrme as val.probfunções do R.

— 18715 Frank Harrell

@Frank Harell: (a) ainda é obsoleto o teste de Hosmer-Lemeshow, acho que ainda é interessante entender a diferença com e (b) você tem uma referência que mostre que o teste de Spiegelhalter tem mais poder do que o teste de Hosmer-Lemeshow?

χ^{2}

$\chi^2$

Estas questões são IMHO muito pequenas em comparação com a pergunta original.

— Frank Harrell

Eu acho que os detalhes aparecem em outras partes deste site. Resumidamente, (1) Hosmer mostrou que o teste é arbitrário - é muito sensível a exatamente como os decis são calculados; (2) falta energia. Você pode ver que ele se baseia em quantidades imprecisas, plotando a curva de calibração em bin (em oposição a uma curva de calibração suave) e observando os saltos. Além disso, não penaliza adequadamente o ajuste excessivo.

— Frank # # # Harrell Harrell

Respostas:

Hosmer DW, Lemeshow S. (1980), Um teste de qualidade do ajuste para o modelo de regressão logística múltipla. Comunicações em estatística, A10, 1043-1069 mostram que:

Se o modelo é um modelo de regressão logística e os parâmetros são estimados por máxima verossimilhança e os grupos são definidos com base nas probabilidades estimadas, considera-se que é assintoticamente (Hosmer, Lemeshow, 1980, p.1052, Teorema 2). $p$ $G$ $X^2$ $\chi^2(G-p-1)+\sum_{i=1}^{p+1} \lambda_i \chi_i^2(1)$

(Nota: as condições necessárias não estão explicitamente no Teorema 2 na página 1052, mas se alguém ler atentamente o artigo e a prova, elas serão exibidas)

O segundo termo resulta do fato de que o agrupamento é baseado em quantidades estimadas - isto é, aleatórias - (Hosmer, Lemeshow, 1980, p. 1051) $\sum_{i=1}^{p+1} \lambda_i \chi_i^2(1)$

Usando simulações, eles mostraram que o segundo termo pode ser (nos casos usados na simulação) aproximado por a (Hosmer, Lemeshow, 1980, p.1060) $\chi^2(p-1)$

A combinação desses dois fatos resulta em uma soma de duas variáveis , uma com graus de liberdade e uma segunda com graus de liberdade ou $\chi^2$ $G-p-1$ $p-1$ $X^2 \sim \chi^2(G-p-1+p-1=G-2)$

Portanto, a resposta para a pergunta está na ocorrência do 'termo qui-quadrado ponderado' ou no fato de que os grupos são definidos usando probabilidades estimadas que são elas próprias variáveis aleatórias.

Veja também Artigo de Hosmer Lemeshow (1980) - Teorema 2

"Portanto, a resposta para a pergunta está na ocorrência do" termo qui-quadrado ponderado " e no fato de que os grupos são definidos usando probabilidades estimadas que são elas próprias variáveis aleatórias". A ) As probabilidades estimadas fazem com que você obtenha uma redução extra de p + 1, o que faz a principal diferença no caso da tabela de contingência (na qual apenas g termos são estimados). B ) O termo qui-quadrado ponderado ocorre como uma correção, porque a estimativa não é uma estimativa de probabilidade ou igualmente eficiente, e isso faz com que o efeito da redução seja menos extra do que (p + 1).

— Sextus Empiricus

@ Martijn Weterings: Estou certo se concluo que o que você diz neste comentário não é exatamente a mesma explicação (para não dizer completamente diferente) do que você diz na sua resposta? O seu comentário leva à conclusão de que os df são ?

G - 2

$G-2$

Minha resposta explica a intuição por trás da diferença de graus de liberdade em comparação com o raciocínio baseado em "a estatística de teste para o para esta tabela de contingência", explica por que eles são diferentes (caso estimando células fixas). Ele se concentra na "redução usual" a partir da qual você concluiria que o df seria o G-3. No entanto, certas condições para a 'redução usual' não são atendidas. Por esse motivo (células aleatórias), você obtém os termos mais complicados com o termo qui-quadrado ponderado como uma correção e acaba efetivamente com o G-2. Está longe de ser completamente diferente.

χ^{2}

$\chi^2$

— Sextus Empiricus

@ Martijn Weterings, desculpe, mas não posso votar, porque não vejo nenhuma noção como 'células aleatórias' na sua resposta, você quer dizer que todas as suas belas fotos (e eu quero dizer isso, são muito legais) explicam algo sobre 'células aleatórias' ou você surgiu com essa noção depois de ler minha resposta?

Não se desculpe. Concordo que minha resposta não é exata para mostrar exatamente os graus de liberdade no teste HL. Sinto muito por isso. O que você tem é a estatística de Chernoff Lehman (também com células aleatórias) que segue a distribuição . Atualmente, não está claro para mim qual parte está incomodando você, espero que você possa ser mais construtivo nisso. Se você quer tudo explicado, você já tem os artigos para isso. Minha resposta acabou de abordar o explica a principal diferença no teste da tabela de contingência.

\sum_{i = 1}^{k - s - 1} χ^{2} (1) + \sum_{i = k - s}^{k - 1} λ_{i} χ_{i}^{2} (1)

$\sum_{i=1}^{k-s-1} \chi^2(1) + \sum_{i=k-s}^{k-1} \lambda_i \chi_i^2(1)$

\sum_{i = 1}^{k - s - 1} χ^{2} (1)

$\sum_{i=1}^{k-s-1} \chi^2(1)$

— Sextus Empiricus

O teorema ao qual você se refere (a parte usual da redução "redução usual dos graus de liberdade devido a parâmetros estimados") foi amplamente defendido por RA Fisher. Em 'Sobre a interpretação de Chi Square a partir de Tabelas de Contingência e o Cálculo de P' (1922), ele argumentou usar a regra e em 'A bondade de ajuste das fórmulas de regressão' ( 1922) ele argumenta para reduzir os graus de liberdade pelo número de parâmetros usados na regressão para obter valores esperados dos dados. (É interessante notar que as pessoas usaram mal o teste do qui-quadrado, com graus incorretos de liberdade, por mais de vinte anos desde sua introdução em 1900) $(R-1) * (C-1)$

Seu caso é do segundo tipo (regressão) e não do tipo anterior (tabela de contingência), embora os dois estejam relacionados, pois são restrições lineares nos parâmetros.

Como você modela os valores esperados, com base nos valores observados, e o faz com um modelo que possui dois parâmetros, a redução "usual" nos graus de liberdade é de dois mais um (um extra porque o O_i precisa somar até um total, que é outra restrição linear, e você acaba efetivamente com uma redução de dois, em vez de três, devido à "ineficiência" dos valores esperados modelados).

O teste do qui-quadrado usa a como uma medida de distância para expressar a proximidade do resultado dos dados esperados. Nas várias versões dos testes do qui-quadrado, a distribuição dessa 'distância' está relacionada à soma dos desvios nas variáveis distribuídas normais (o que é verdadeiro apenas no limite e é uma aproximação se você lidar com dados distribuídos não normais) . $\chi^2$

Para a distribuição normal multivariada, a função densidade está relacionada ao por $\chi^2$

$f(x_1,...,x_k) = \frac{e^{- \frac{1}{2}\chi^2} }{\sqrt{(2\pi)^k \vert \mathbf{\Sigma}\vert}}$

com o determinante da matriz de covariância de $\vert \mathbf{\Sigma}\vert$ $\mathbf{x}$

e são os mahalanobis distância que reduz à distância euclidiana se . $\chi^2 = (\mathbf{x}-\mathbf{\mu})^T \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})$ $\mathbf{\Sigma}=\mathbf{I}$

Em seu artigo de 1900, Pearson argumentou que os níveis são esferóides e que ele pode se transformar em coordenadas esféricas para integrar um valor como . O que se torna uma única integral. $\chi^2$ $P(\chi^2 > a)$

É essa representação geométrica, como uma distância e também um termo na função densidade, que pode ajudar a entender a redução dos graus de liberdade quando restrições lineares estão presentes. $\chi^2$

Primeiro, o caso de uma tabela de contingência 2x2 . Você deve observar que os quatro valores não são quatro variáveis distribuídas normais independentes. Eles são relacionados um ao outro e se resumem a uma única variável. $\frac{O_i-E_i}{E_i}$

Vamos usar a tabela

$O_{ij} = \begin{array}{cc} o_{11} & o_{12} \\ o_{21} & o_{22} \end{array}$

então se os valores esperados

$E_{ij} = \begin{array}{cc} e_{11} & e_{12} \\ e_{21} & e_{22} \end{array}$

onde fixo, então seria distribuído como uma distribuição qui-quadrado com quatro graus de liberdade, mas geralmente estimamos o base no e a variação não é como quatro variáveis independentes. Em vez disso, entendemos que todas as diferenças entre e são iguais $\sum \frac{o_{ij}-e_{ij}}{e_{ij}}$ $e_{ij}$ $o_{ij}$ $o$ $e$

$\begin{array}\\&(o_{11}-e_{11}) &=\\ &(o_{22}-e_{22}) &=\\ -&(o_{21}-e_{21}) &=\\ -&(o_{12}-e_{12}) &= o_{11} - \frac{(o_{11}+o_{12})(o_{11}+o_{21})}{(o_{11}+o_{12}+o_{21}+o_{22})} \end{array}$

e eles são efetivamente uma única variável em vez de quatro. Geometricamente, você pode ver isso como o valor não integrado em uma esfera quadridimensional, mas em uma única linha. $\chi^2$

Observe que esse teste da tabela de contingência não é o caso da tabela de contingência no teste Hosmer-Lemeshow (ele usa uma hipótese nula diferente!). Consulte também a seção 2.1 'o caso em que e são conhecidos' no artigo de Hosmer e Lemshow. No caso deles, você obtém 2g-1 graus de liberdade e não g-1 graus de liberdade, como na regra (R-1) (C-1). Essa regra (R-1) (C-1) é especificamente o caso da hipótese nula de que as variáveis de linha e coluna são independentes (o que cria restrições R + C-1 nos valores ). O teste de Hosmer-Lemeshow refere-se à hipótese de que as células são preenchidas de acordo com as probabilidades de um modelo de regressão logística baseado em $\beta_0$ $\underline\beta$ $o_i-e_i$ $four$ parâmetros no caso da suposição distributiva A e no caso da suposição distributiva B. $p+1$

Segundo o caso de uma regressão. Uma regressão faz algo semelhante à diferença como a tabela de contingência e reduz a dimensionalidade da variação. Existe uma boa representação geométrica para isso, pois o valor pode ser representado como a soma de um termo modelo e de um termo residual (sem erro) . Esses termos modelo e residual representam, cada um, um espaço dimensional que é perpendicular um ao outro. Isso significa que os termos residuais não podem ter nenhum valor possível! Ou seja, eles são reduzidos pela parte que projeta no modelo e, mais especificamente, 1 dimensão para cada parâmetro no modelo. $o-e$ $y_i$ $\beta x_i$ $\epsilon_i$ $\epsilon_i$

Talvez as seguintes imagens possam ajudar um pouco

Abaixo estão 400 vezes três variáveis (não correlacionadas) das distribuições binomiais . Eles se relacionam com variáveis distribuídas normais . Na mesma imagem, desenhamos a iso-superfície para . Para integrar esse espaço usando as coordenadas esféricas, de modo que precisamos apenas de uma única integração (porque alterar o ângulo não altera a densidade), over resulta em em que essa parte representa a área da esfera d-dimensional. Se limitarmos as variáveis $B(n=60,p={1/6,2/6,3/6})$ $N(\mu=n*p,\sigma^2=n*p*(1-p))$ $\chi^2={1,2,6}$ $\chi$ $\int_0^a e^{-\frac{1}{2} \chi^2 }\chi^{d-1} d\chi$ $\chi^{d-1}$ $\chi$ de alguma forma, a integração não seria sobre uma esfera d-dimensional, mas algo de menor dimensão.

A imagem abaixo pode ser usada para se ter uma idéia da redução dimensional nos termos residuais. Explica o método de ajuste de mínimos quadrados em termos geométricos.

Em azul você tem medidas. Em vermelho, você tem o que o modelo permite. A medição geralmente não é exatamente igual ao modelo e tem algum desvio. Você pode considerar isso, geometricamente, como a distância do ponto medido à superfície vermelha.

As setas vermelhas e têm valores e e podem estar relacionadas a algum modelo linear como x = a + b * z + erro ou $mu_1$ $mu_2$ $(1,1,1)$ $(0,1,2)$

$\begin{bmatrix}x_{1}\\x_{2}\\x_{3}\end{bmatrix} = a \begin{bmatrix}1\\1\\1\end{bmatrix} + b \begin{bmatrix}0\\1\\2\end{bmatrix} + \begin{bmatrix}\epsilon_1\\\epsilon_2\\\epsilon_3\end{bmatrix}$

portanto, a extensão desses dois vetores e (o plano vermelho) são os valores de possíveis no modelo de regressão e é um vetor que é a diferença entre o valor observado e o valor de regressão / modelado. No método dos mínimos quadrados, esse vetor é perpendicular (a menor distância é a soma dos quadrados) à superfície vermelha (e o valor modelado é a projeção do valor observado na superfície vermelha). $(1,1,1)$ $(0,1,2)$ $x$ $\epsilon$

Portanto, essa diferença esperada e (modelada) esperada é uma soma de vetores que são perpendiculares ao vetor de modelo (e esse espaço tem dimensão do espaço total menos o número de vetores de modelo).

No nosso exemplo simples. A dimensão total é 3. O modelo possui 2 dimensões. E o erro tem uma dimensão 1 (portanto, independentemente de quais desses pontos azuis você escolhe, as setas verdes mostram um único exemplo, os termos do erro sempre têm a mesma proporção, seguem um único vetor).

Espero que esta explicação ajude. Não é de forma alguma uma prova rigorosa e existem alguns truques algébricos especiais que precisam ser resolvidos nessas representações geométricas. Mas de qualquer maneira eu gosto dessas duas representações geométricas. O truque de Pearson para integrar o usando as coordenadas esféricas e o outro para visualizar o método da soma dos mínimos quadrados como uma projeção em um plano (ou maior alcance). $\chi^2$

Sempre fico impressionado com a forma como terminamos com , isso não é trivial para mim, pois a aproximação normal de um binomial não é uma invenção de sim de e em No caso de tabelas de contingência, você pode trabalhar com facilidade, mas no caso da regressão ou de outras restrições lineares, isso não funciona tão facilmente, enquanto a literatura geralmente é muito fácil em argumentar que 'funciona da mesma maneira para outras restrições lineares'. . (Um exemplo interessante do problema. Se você executar o teste a seguir várias vezes 'joga 2 vezes 10 vezes uma moeda e registra apenas os casos em que a soma é 10', não obtém a distribuição típica do qui-quadrado para isso " simples "restrição linear) $\frac{o-e}{e}$ $e$ $np(1-p)$

— Sextus Empiricus
fonte

Na minha opinião sincera, essa resposta tem números e argumentos muito bons relacionados ao , mas não tem muito a ver com a pergunta que se refere ao teste de Hosmer-Lemeshow para uma regressão logística. Você está discutindo algo com uma regressão em que 1 parâmetro é estimado, mas o teste de Hosmer-Lemeshow é sobre uma regressão logística em que parâmetros são estimados. Consulte também stats.stackexchange.com/questions/296312/…

χ^{2}

$\chi^2$

p > 1

$p>1$

... e, como você diz, você acaba com um no denominador e não com um , portanto isso não responde a essa pergunta. Daí eu tenho que fazer voto negativo, desculpe (mas os gráficos são muito bons :-)).

e

$e$

n p (1 - p)

$np(1-p)$

Você estava pedindo em um comentário para "entender a fórmula ou pelo menos a explicação 'intuitiva'". Então é isso que você obtém com essas interpretações geométricas. Calcular exatamente como esses cancelados se você adicionar os casos positivo e negativo está longe de ser intuitivo e não ajuda a entender as dimensões.

n p (1 - p)

$np(1-p)$

— Sextus Empiricus

Na minha resposta, usei os graus de liberdade típicos e assumi que a regressão foi realizada com um parâmetro (p = 1), o que foi um erro. Os parâmetros em suas referências são dois, a e . Esses dois parâmetros teriam reduzido a dimensionalidade para d-3 se apenas as condições adequadas (estimativa eficiente) tivessem sido atendidas (veja, por exemplo, novamente um bom artigo de Fisher.) As condições sob as quais o quadrado do qui mede a discrepância entre observação e hipótese ') ...

(d - 1 - p)

$(d - 1 - p)$

β_{0}

$\beta_0$

β

$\beta$

— Sextus Empiricus

... de qualquer maneira, expliquei por que não obtemos a dimensão d-1 (e devemos esperar algo como d-3, se você colocar dois parâmetros na regressão) e como a redução dimensional por uma estimativa eficiente pode ser imaginada . É o artigo de Moore-Spruill que elabora os termos extras (potencialmente aumentando os graus efetivos de liberdade) devido a essa ineficiência e é a simulação de Hosmer-Lemeshow que mostra que o d-2 funciona melhor. Esse trabalho teórico está longe de ser intuitivo e a simulação está longe de ser exata. Minha resposta é apenas a explicação solicitada para a diferença com d-1.

— Sextus Empiricus