O teorema ao qual você se refere (a parte usual da redução "redução usual dos graus de liberdade devido a parâmetros estimados") foi amplamente defendido por RA Fisher. Em 'Sobre a interpretação de Chi Square a partir de Tabelas de Contingência e o Cálculo de P' (1922), ele argumentou usar a regra e em 'A bondade de ajuste das fórmulas de regressão' ( 1922) ele argumenta para reduzir os graus de liberdade pelo número de parâmetros usados na regressão para obter valores esperados dos dados. (É interessante notar que as pessoas usaram mal o teste do qui-quadrado, com graus incorretos de liberdade, por mais de vinte anos desde sua introdução em 1900)(R−1)∗(C−1)
Seu caso é do segundo tipo (regressão) e não do tipo anterior (tabela de contingência), embora os dois estejam relacionados, pois são restrições lineares nos parâmetros.
Como você modela os valores esperados, com base nos valores observados, e o faz com um modelo que possui dois parâmetros, a redução "usual" nos graus de liberdade é de dois mais um (um extra porque o O_i precisa somar até um total, que é outra restrição linear, e você acaba efetivamente com uma redução de dois, em vez de três, devido à "ineficiência" dos valores esperados modelados).
O teste do qui-quadrado usa a como uma medida de distância para expressar a proximidade do resultado dos dados esperados. Nas várias versões dos testes do qui-quadrado, a distribuição dessa 'distância' está relacionada à soma dos desvios nas variáveis distribuídas normais (o que é verdadeiro apenas no limite e é uma aproximação se você lidar com dados distribuídos não normais) .χ2
Para a distribuição normal multivariada, a função densidade está relacionada ao porχ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
com o determinante da matriz de covariância dex|Σ|x
e são os mahalanobis distância que reduz à distância euclidiana se .Σ = Iχ2= ( x -μ)TΣ-1( x - μ )Σ = I
Em seu artigo de 1900, Pearson argumentou que os níveis são esferóides e que ele pode se transformar em coordenadas esféricas para integrar um valor como . O que se torna uma única integral. P ( χ 2 > a )χ2P( χ2> a )
É essa representação geométrica, como uma distância e também um termo na função densidade, que pode ajudar a entender a redução dos graus de liberdade quando restrições lineares estão presentes.χ2
Primeiro, o caso de uma tabela de contingência 2x2 . Você deve observar que os quatro valores não são quatro variáveis distribuídas normais independentes. Eles são relacionados um ao outro e se resumem a uma única variável.OEu- EEuEEu
Vamos usar a tabela
Oeu j= o11o21o12o22
então se os valores esperados
Eeu j= e11e21e12e22
onde fixo, então seria distribuído como uma distribuição qui-quadrado com quatro graus de liberdade, mas geralmente estimamos o base no e a variação não é como quatro variáveis independentes. Em vez disso, entendemos que todas as diferenças entre e são iguais eijoijoe∑ oeu j- eeu jeeu jeeu joeu joe
--( o11- e11)( o22- e22)( o21- e21)( o12- e12)==== o11- ( o11+ o12) ( o11+ o21)( o11+ o12+ o21+ o22)
e eles são efetivamente uma única variável em vez de quatro. Geometricamente, você pode ver isso como o valor não integrado em uma esfera quadridimensional, mas em uma única linha.χ2
Observe que esse teste da tabela de contingência não é o caso da tabela de contingência no teste Hosmer-Lemeshow (ele usa uma hipótese nula diferente!). Consulte também a seção 2.1 'o caso em que e são conhecidos' no artigo de Hosmer e Lemshow. No caso deles, você obtém 2g-1 graus de liberdade e não g-1 graus de liberdade, como na regra (R-1) (C-1). Essa regra (R-1) (C-1) é especificamente o caso da hipótese nula de que as variáveis de linha e coluna são independentes (o que cria restrições R + C-1 nos valores ). O teste de Hosmer-Lemeshow refere-se à hipótese de que as células são preenchidas de acordo com as probabilidades de um modelo de regressão logística baseado emβ _ o i - e i f o u r p + 1β0 0β--oEu- eEufo u rparâmetros no caso da suposição distributiva A e no caso da suposição distributiva B.p + 1
Segundo o caso de uma regressão. Uma regressão faz algo semelhante à diferença como a tabela de contingência e reduz a dimensionalidade da variação. Existe uma boa representação geométrica para isso, pois o valor pode ser representado como a soma de um termo modelo e de um termo residual (sem erro) . Esses termos modelo e residual representam, cada um, um espaço dimensional que é perpendicular um ao outro. Isso significa que os termos residuais não podem ter nenhum valor possível! Ou seja, eles são reduzidos pela parte que projeta no modelo e, mais especificamente, 1 dimensão para cada parâmetro no modelo.y i β x i ϵ i ϵ io - eyEuβxEuϵEuϵEu
Talvez as seguintes imagens possam ajudar um pouco
Abaixo estão 400 vezes três variáveis (não correlacionadas) das distribuições binomiais . Eles se relacionam com variáveis distribuídas normais . Na mesma imagem, desenhamos a iso-superfície para . Para integrar esse espaço usando as coordenadas esféricas, de modo que precisamos apenas de uma única integração (porque alterar o ângulo não altera a densidade), over resulta em em que essa parte representa a área da esfera d-dimensional. Se limitarmos as variáveisB ( n = 60 , p = 1 / 6 , 2 / 6 , 3 / 6 )N( μ = n ∗ p , σ2= n ∗ p ∗ ( 1 - p ) )χ2= 1 , 2 , 6χ∫uma0 0e- 12χ2χd- 1dχχd- 1χ de alguma forma, a integração não seria sobre uma esfera d-dimensional, mas algo de menor dimensão.
A imagem abaixo pode ser usada para se ter uma idéia da redução dimensional nos termos residuais. Explica o método de ajuste de mínimos quadrados em termos geométricos.
Em azul você tem medidas. Em vermelho, você tem o que o modelo permite. A medição geralmente não é exatamente igual ao modelo e tem algum desvio. Você pode considerar isso, geometricamente, como a distância do ponto medido à superfície vermelha.
As setas vermelhas e têm valores e e podem estar relacionadas a algum modelo linear como x = a + b * z + erro oum u1m u2( 1 , 1 , 1 )( 0 , 1 , 2 )
⎡⎣⎢x1x2x3⎤⎦⎥= a ⎡⎣⎢111⎤⎦⎥+ b ⎡⎣⎢0 012⎤⎦⎥+ ⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
portanto, a extensão desses dois vetores e (o plano vermelho) são os valores de possíveis no modelo de regressão e é um vetor que é a diferença entre o valor observado e o valor de regressão / modelado. No método dos mínimos quadrados, esse vetor é perpendicular (a menor distância é a soma dos quadrados) à superfície vermelha (e o valor modelado é a projeção do valor observado na superfície vermelha).( 1 , 1 , 1 )( 0 , 1 , 2 )xϵ
Portanto, essa diferença esperada e (modelada) esperada é uma soma de vetores que são perpendiculares ao vetor de modelo (e esse espaço tem dimensão do espaço total menos o número de vetores de modelo).
No nosso exemplo simples. A dimensão total é 3. O modelo possui 2 dimensões. E o erro tem uma dimensão 1 (portanto, independentemente de quais desses pontos azuis você escolhe, as setas verdes mostram um único exemplo, os termos do erro sempre têm a mesma proporção, seguem um único vetor).
Espero que esta explicação ajude. Não é de forma alguma uma prova rigorosa e existem alguns truques algébricos especiais que precisam ser resolvidos nessas representações geométricas. Mas de qualquer maneira eu gosto dessas duas representações geométricas. O truque de Pearson para integrar o usando as coordenadas esféricas e o outro para visualizar o método da soma dos mínimos quadrados como uma projeção em um plano (ou maior alcance).χ2
Sempre fico impressionado com a forma como terminamos com , isso não é trivial para mim, pois a aproximação normal de um binomial não é uma invenção de sim de e em No caso de tabelas de contingência, você pode trabalhar com facilidade, mas no caso da regressão ou de outras restrições lineares, isso não funciona tão facilmente, enquanto a literatura geralmente é muito fácil em argumentar que 'funciona da mesma maneira para outras restrições lineares'. . (Um exemplo interessante do problema. Se você executar o teste a seguir várias vezes 'joga 2 vezes 10 vezes uma moeda e registra apenas os casos em que a soma é 10', não obtém a distribuição típica do qui-quadrado para isso " simples "restrição linear) enpo - eeen p ( 1 - p )