Como entender os graus de liberdade?


257

Da Wikipedia , existem três interpretações dos graus de liberdade de uma estatística:

Nas estatísticas, o número de graus de liberdade é o número de valores no cálculo final de uma estatística que pode variar livremente .

As estimativas de parâmetros estatísticos podem ser baseadas em diferentes quantidades de informações ou dados. O número de informações independentes incluídas na estimativa de um parâmetro é chamado de graus de liberdade (df). Em geral, os graus de liberdade de uma estimativa de um parâmetro são iguais ao número de pontuações independentes que entram na estimativa menos o número de parâmetros usados ​​como etapas intermediárias na estimativa do próprio parâmetro (que, na variação da amostra, é primeiro, uma vez que a média da amostra é o único passo intermediário).

Matematicamente, graus de liberdade é a dimensão do domínio de um vetor aleatório , ou essencialmente o número de componentes 'livres': quantos componentes precisam ser conhecidos antes que o vetor seja totalmente determinado .

As palavras em negrito são o que eu não entendo direito. Se possível, algumas formulações matemáticas ajudarão a esclarecer o conceito.

Também as três interpretações concordam entre si?


Confira esta explicação
George Dontas

3
Veja também esta pergunta "O que são graus de liberdade?"
21411 Jeremy

Respostas:


242

Esta é uma pergunta sutil. É preciso uma pessoa atenciosa para não entender essas citações! Embora sejam sugestivos, nenhum deles é exatamente ou geralmente correto. Não tenho tempo (e não há espaço aqui) para fazer uma exposição completa, mas gostaria de compartilhar uma abordagem e uma visão que ela sugere.

Onde surge o conceito de graus de liberdade (DF)? Os contextos em que é encontrado em tratamentos elementares são:

  • O teste t de Student e suas variantes, como as soluções Welch ou Satterthwaite para o problema de Behrens-Fisher (onde duas populações têm variações diferentes).

  • A distribuição qui-quadrado (definida como uma soma dos quadrados dos normais normais independentes), que está implicada na distribuição amostral da variância.

  • O teste F (de razões de variações estimadas).

  • O teste do qui-quadrado , compreendendo seus usos em (a) teste de independência em tabelas de contingência e (b) teste de adequação das estimativas de distribuição.

Em espírito, esses testes variam de exatos (teste t de Student e teste F para variáveis ​​normais) a boas aproximações (teste t de Student e Welch / Satterthwaite para dados não tão distorcidos) ) a basear-se em aproximações assintóticas (teste Qui-quadrado). Um aspecto interessante de algumas delas é a aparência de "graus de liberdade" não integrais (os testes de Welch / Satterthwaite e, como veremos, o teste do qui-quadrado). Isso é de especial interesse, porque é a primeira dica de que o DF não é uma das coisas reivindicadas.

Podemos descartar imediatamente algumas das reivindicações da pergunta. Como o "cálculo final de uma estatística" não está bem definido (aparentemente depende de qual algoritmo se usa para o cálculo), não pode ser mais do que uma sugestão vaga e não vale mais críticas. Da mesma forma, nem "o número de pontuações independentes que entram na estimativa" nem "o número de parâmetros usados ​​como etapas intermediárias" estão bem definidos.

É difícil lidar com "informações independentes que entram em [uma] estimativa" , porque existem dois sentidos diferentes, mas intimamente relacionados, de "independentes" que podem ser relevantes aqui. Uma é a independência de variáveis ​​aleatórias; o outro é independência funcional. Como exemplo deste último, suponha que coletemos medições morfométricas de sujeitos - digamos, por simplicidade, os três comprimentos laterais , , , áreas de superfície e volumes de um conjunto de blocos de madeira. Os três comprimentos laterais podem ser considerados variáveis ​​aleatórias independentes, mas todas as cinco variáveis ​​são RVs dependentes. Os cinco também são funcionalmenteY Z S = 2 ( X Y + Y Z + Z X ) V = X Y Z ( X , Y , Z , S , V ) R 5 ω R 5 f ω g ω f ω ( X ( ψ ) , , V ( ψ ) ) = 0 g ωXYZS=2(XY+YZ+ZX)V=XYZdependente porque o codomain ( não o "domínio"!) da variável aleatória com valor vetorial rastreia uma variedade tridimensional em . (Portanto, localmente, em qualquer ponto , existem duas funções e para as quais e para pontos "próximos" e os derivados de e avaliados em(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω f g ω ( X , S , V )gω(X(ψ),,V(ψ))=0ψωfgωsão linearmente independentes.) Entretanto - aqui está o kicker - para muitas medidas de probabilidade nos blocos, subconjuntos de variáveis ​​como são dependentes como variáveis ​​aleatórias, mas funcionalmente independentes.(X,S,V)

Tendo sido alertado por essas ambiguidades em potencial, vamos realizar o teste de qualidade do ajuste do qui-quadrado para exame , porque (a) é simples, (b) é uma das situações comuns em que as pessoas realmente precisam saber sobre o DF para obter o resultado. p-value right e (c) é frequentemente usado incorretamente. Aqui está uma breve sinopse da aplicação menos controversa deste teste:

  • Você tem uma coleção de valores de dados , considerados como uma amostra de uma população.(x1,,xn)

  • Você estimou alguns parâmetros de uma distribuição. Por exemplo, você estimou a média e o desvio padrão de uma distribuição Normal, com a hipótese de que a população é normalmente distribuída, mas sem saber (antes da obtenção dos dados) o que ou pode ser.θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • Com antecedência, você criou um conjunto de "compartimentos" para os dados. (Pode ser problemático quando os compartimentos são determinados pelos dados, mesmo que isso geralmente seja feito.) Usando esses compartimentos, os dados são reduzidos ao conjunto de contagens em cada compartimento. Antecipando quais seriam os verdadeiros valores de , você organizou para que (com sorte) cada compartimento receba aproximadamente a mesma contagem. (O binning de igual probabilidade assegura que a distribuição qui-quadrado é realmente uma boa aproximação à verdadeira distribuição da estatística qui-quadrado que está prestes a ser descrita.)( θ )k(θ)

  • Você tem muitos dados - o suficiente para garantir que quase todas as caixas devam ter contagens de 5 ou mais. (Esperamos que isso permita que a distribuição amostral da estatística seja aproximada adequadamente por alguma )χ 2χ2χ2

Usando as estimativas de parâmetro, você pode calcular a contagem esperada em cada posição. A estatística qui-quadrado é a soma das proporções

(observedexpected)2expected.

Isso, dizem muitas autoridades, deve ter (para uma aproximação muito próxima) uma distribuição qui-quadrado. Mas há toda uma família de tais distribuições. Eles são diferenciados por um parâmetro geralmente chamado de "graus de liberdade". O raciocínio padrão sobre como determinar é assimννν

Eu tenho contagens. São dados. Mas existem relacionamentos ( funcionais ) entre eles. Para começar, eu sei de antemão que a soma das contagens deve ser igual a . Essa é uma relação. Estimei dois (ou , geralmente) parâmetros a partir dos dados. São dois (ou ) relacionamentos adicionais, resultando em total. Supondo que eles (os parâmetros) sejam todos ( funcionalmente ) independentes, isso deixa apenas "graus de liberdade" independentes de ( funcionalmente ): esse é o valor a ser usado para .k n p p p + 1 k - p - 1 νkknppp+1kp1ν

O problema com esse raciocínio (que é o tipo de cálculo que as cotações na pergunta estão sugerindo) é que ele está errado, exceto quando algumas condições adicionais especiais são válidas. Além disso, essas condições nada têm a ver com independência (funcional ou estatística), com números de "componentes" dos dados, com o número de parâmetros, nem com qualquer outra coisa referida na pergunta original.

Deixe-me mostrar um exemplo. (Para deixar o mais claro possível, estou usando um pequeno número de compartimentos, mas isso não é essencial.) Vamos gerar 20 variáveis ​​independentes padrão e identicamente distribuídas (iid) Variáveis ​​normais e estimar sua média e desvio padrão com as fórmulas usuais ( média = soma / contagem, etc. ) Para testar a qualidade do ajuste, crie quatro compartimentos com pontos de corte nos quartis de uma normal padrão: -0,675, 0, +0,657 e use as contagens de bin para gerar uma estatística qui-quadrado. Repita conforme a paciência permitir; Eu tive tempo para fazer 10.000 repetições.

A sabedoria padrão sobre o DF diz que temos 4 compartimentos e 1 + 2 = 3 restrições, o que implica que a distribuição dessas 10.000 estatísticas do qui-quadrado deve seguir uma distribuição do qui-quadrado com 1 DF. Aqui está o histograma:

figura 1

A linha azul escura representa graficamente o PDF de uma - a que pensávamos que funcionaria - enquanto a linha vermelha escura representa graficamente o gráfico de uma (o que seria uma boa acho que se alguém lhe disser que está incorreto). Nem se encaixa nos dados.χ 2 ( 2 ) ν = 1χ2(1)χ2(2)ν=1

Você pode esperar que o problema seja devido ao tamanho pequeno dos conjuntos de dados ( = 20) ou talvez ao tamanho pequeno do número de compartimentos. No entanto, o problema persiste mesmo com conjuntos de dados muito grandes e um número maior de compartimentos: não é apenas uma falha em alcançar uma aproximação assintótica.n

As coisas deram errado porque violei dois requisitos do teste Qui-quadrado:

  1. Você deve usar a estimativa de máxima verossimilhança dos parâmetros. (Na prática, esse requisito pode ser ligeiramente violado.)

  2. Você deve basear essa estimativa nas contagens, não nos dados reais! (Isso é crucial .)

Figura 2

O histograma vermelho mostra as estatísticas do qui-quadrado para 10.000 iterações separadas, seguindo esses requisitos. Com certeza, segue visivelmente a curva (com uma quantidade aceitável de erro de amostragem), como esperávamos originalmente.χ2(1)

O objetivo dessa comparação - que espero que você tenha visto acontecer - é que o DF correto a ser usado para calcular os valores-p depende de muitas outras coisas além das dimensões dos coletores, da contagem de relações funcionais ou da geometria das variáveis ​​normais . Há uma interação sutil e delicada entre certas dependências funcionais, como encontrado nas relações matemáticas entre quantidades e distribuições dos dados, suas estatísticas e estimadores formados a partir delas. Consequentemente, não é possível que o DF seja adequadamente explicável em termos da geometria das distribuições normais multivariadas, ou em termos de independência funcional, ou como contagem de parâmetros ou qualquer outra coisa dessa natureza.

Somos levados a ver, então, que "graus de liberdade" é meramente uma heurística que sugere o que deve ser a distribuição amostral de uma estatística (t, qui-quadrado ou F), mas não é disposta. A crença de que ele é disposto leva a erros flagrantes. (Por exemplo, o principal sucesso no Google ao pesquisar "qualidade do ajuste ao quadrado do chi" é uma página da Web de uma universidade da Ivy League que entende tudo errado completamente! Em particular, uma simulação com base em suas instruções mostra que o quadrado valor recomendado como tendo 7 DF, na verdade, tem 9 DF.)

Com esse entendimento mais sutil, vale a pena reler o artigo da Wikipedia em questão: em seus detalhes, as coisas são acertadas, apontando onde a heurística do DF tende a funcionar e onde é uma aproximação ou não se aplica.


Um bom relato do fenômeno ilustrado aqui (DF inesperadamente alto nos testes GOF qui-quadrado) aparece no Volume II de Kendall & Stuart, 5ª edição . Sou grato pela oportunidade oferecida por esta pergunta para me levar de volta a este maravilhoso texto, que está cheio de análises úteis.


Editar (jan de 2017)

Aqui está o Rcódigo para produzir a figura a seguir "A sabedoria padrão sobre o DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Esta é uma resposta incrível. Você ganha na internet por isso.
Adam

6
@caracal: como você sabe, os métodos de ML para os dados originais são rotineiros e generalizados: para a distribuição normal, por exemplo, o MLE de é a média da amostra e o MLE de é a raiz quadrada do desvio padrão da amostra ( sem a correção de viés usual). Para obter estimativas com base nas contagens, calculei a função de probabilidade para as contagens - isso requer computar valores do CDF nos pontos de corte, pegar seus logs, multiplicar pelas contagens e somar - e otimizar usando o software de otimização genérico. σμσ
whuber

4
@caracal Você provavelmente não precisa mais dele, mas um exemplo de Rcódigo para o ajuste de dados binados por ML agora aparece em uma pergunta relacionada: stats.stackexchange.com/a/34894 .
whuber

1
"O problema com esse raciocínio (que é o tipo de cálculo que as citações estão sugerindo) é que ele está errado, exceto quando algumas condições adicionais especiais se mantêm". Estou agora (quase) passando por dois semestres de uma sequência de modelos lineares e entendo os graus de liberdade como o posto da matriz no "meio" da forma quadrática. Quais são essas "condições adicionais"?
Clarinetist

4
@ Clarinetist O ponto principal da minha resposta é sugerir que o que você aprendeu se baseia em uma confusão de dois conceitos de DF. Embora essa confusão não cause problemas para os modelos da teoria normal dos mínimos quadrados padrão, ela gera erros mesmo em circunstâncias simples e comuns, como análises de tabelas de contingência. Essa classificação da matriz fornece o DF funcional . Em um modelo linear de mínimos quadrados que acontece para dar o DF correto para certos tipos de testes, tais como testes de F. Para o teste do qui-quadrado, as condições especiais são enumeradas posteriormente na resposta como pontos (1) e (2).
whuber

74

Ou simplesmente: o número de elementos em uma matriz numérica que você pode alterar para que o valor da estatística permaneça inalterado.

# for instance if:
x + y + z = 10

você pode mudar, por exemplo, x e y de forma aleatória, mas você não pode mudar z (você pode, mas não de forma aleatória, portanto, você não está livre para mudá-lo - veja o comentário de Harvey), porque você vai alterar o valor da estatística (Σ = 10). Portanto, neste caso, df = 2.


19
Não é correto dizer "você não pode mudar z". De fato, você precisa alterar z para tornar a soma igual a 10. Mas você não tem escolha (sem liberdade) sobre o que muda. Você pode alterar quaisquer dois valores, mas não o terceiro.
26510 Harvey Motulsky

53

O conceito não é de todo difícil de tornar matemática precisa, dado um pouco de conhecimento geral da geometria euclidiana dimensional, subespaços e projeções ortogonais.n

Se é uma projeção ortogonal de R n para um subespaço p dimensional L e x é um vetor n arbitrário, então P x está em L , x - P x e P x são ortogonais e x - P x L está em o complemento ortogonal de L . A dimensão deste complemento ortogonal, L , é n - p . E sePRnpLxnPxLxPxPxxPxLLLnp é livre para variar em umespaço n- dimensional, então x - P x é livre para variar em umespaço dimensional n - p . Por esse motivo, dizemos que x - P x possui n - p graus de liberdade.xnxPxnpxPxnp

Essas considerações são importantes para a estatística, porque se é um vetor aleatório n- dimensional e L é um modelo de sua média, ou seja, o vetor médio E ( X ) está em L , então chamamos X - P X o vetor de resíduos , e usamos os resíduos para estimar a variação. O vetor de resíduos possui n - p graus de liberdade, isto é, é restrito a um subespaço da dimensão n - p .XnLE(X)LXPXnpnp

Se as coordenadas de são independentes e normalmente distribuídas com a mesma variação σ 2, entãoXσ2

  • Os vetores e X - P X são independentes.PXXPX
  • Se a distribuição da norma ao quadrado do vetor de resíduos | | X - P X | | 2 é uma distribuição de χ 2 com o parâmetro de escala σ 2 e outro parâmetro que passa a ser os graus de liberdade n - p .E(X)L||XPX||2χ2σ2np

O esboço da prova desses fatos é apresentado abaixo. Os dois resultados são centrais para o desenvolvimento posterior da teoria estatística com base na distribuição normal. Observe também que é por isso que a distribuição tem a parametrização que possui. Também é uma distribuição Γ com o parâmetro de escala 2 σ 2 e o parâmetro de forma ( n - p ) / 2 , mas no contexto acima, é natural parametrizar em termos de graus de liberdade.χ2Γ2σ2(np)/2

Devo admitir que não acho nenhum dos parágrafos citados no artigo da Wikipedia particularmente esclarecedor, mas eles também não são realmente errados ou contraditórios. Eles dizem de uma maneira imprecisa e generalizada que, quando calculamos a estimativa do parâmetro de variância, mas o fazemos com base em resíduos, baseamos a computação em um vetor que é livre apenas para variar em um espaço de dimensão .np

Além da teoria dos modelos normais lineares, o uso do conceito de graus de liberdade pode ser confuso. Por exemplo, é usado na parametrização da distribuição do independentemente de haver ou não uma referência a qualquer coisa que possa ter algum grau de liberdade. Quando consideramos a análise estatística de dados categóricos, pode haver alguma confusão sobre se as "partes independentes" devem ser contadas antes ou depois de uma tabulação. Além disso, para restrições, mesmo para modelos normais, que não são restrições do subespaço, não é óbvio como estender o conceito de graus de liberdade. Existem várias sugestões, geralmente sob o nome de graus efetivos de liberdade.χ2

Antes de considerar qualquer outro uso e significado dos graus de liberdade, recomendo fortemente que me torne confiante no contexto de modelos normais lineares. Uma referência que trata dessa classe de modelo é Um Primeiro Curso em Teoria de Modelos Lineares , e há referências adicionais no prefácio do livro a outros livros clássicos sobre modelos lineares.

Prova dos resultados acima: Seja , observe que a matriz de variância é σ 2 I e escolha uma base ortonormal z 1 , , z p de L e uma base ortonormal z p + 1 , , z n de L . Então z 1 , , z n é uma base ortonormal de R n . Vamos ~ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~denotam o -vector dos coeficientes de X nesta base, que é ~ X i = z o t i X . Isto também pode ser escrita como ~ X = Z t X onde Z é a matriz ortogonal com os z i 's nas colunas. Então nós temos que usar que ˜ X tem uma distribuição normal com média Z T ξ e, como Z é ortogonal, matriz de variância σ 2 InX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I. Isto resulta dos resultados gerais da transformação linear da distribuição normal. Foi escolhida a base de modo que os coeficientes de são ~ X i para i = 1 , ... , p , e os coeficientes de X - P X são ~ X i para i = p + 1 , ... , n . Como os coeficientes não são correlacionados e são conjuntamente normais, eles são independentes, e isso implica que P X = p iPXX~ii=1,,pXPXX~ii=p+1,,n e X-PX= n i = p + 1 ˜ X izi são independentes. Além disso, | | X-PX| | 2= n Σ i = p + 1 ~ X 2 i . SeξLentãoE( ˜ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL para i = p + 1 , ... , n , porque então z iL e, portanto, z iξ . Neste caso | | X - P X | | 2 é a soma de n - p independente de N ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)variáveis ​​aleatórias distribuídas, cuja distribuição, por definição, é uma distribuição de com parâmetro de escala σ 2 e n - p graus de liberdade.χ2σ2np

NRH, obrigado! (1) Por que precisa estar dentro de L ? (2) Por que P X e X - P X são independentes? (3) O dof no contexto da variável aleatória é definido a partir do dof em seu caso determinístico? Por exemplo, é a razão para | | X - P X | | 2 tem dof n - p porque é verdade quando X é uma variável determinística em vez de uma variável aleatória? (4) Existem referências (livros, artigos ou links) que possuem a mesma opinião / opinião semelhante à sua?E(X)LPXXPX||XPX||2npX
Tim

@ Tim, e X - P X são independentes, pois são normais e não correlacionados. PXXPX
Mvctas # 13/11

@ Tim, reformulei a resposta um pouco e dei uma prova dos resultados declarados. É necessário que a média esteja em para provar o resultado sobre a distribuição do χ 2 . É uma suposição de modelo. Na literatura, você deve procurar modelos lineares normais ou modelos lineares gerais, mas, no momento, só consigo me lembrar de algumas anotações de aula antigas e não publicadas. Vou ver se consigo encontrar uma referência adequada. Lχ2
NRH 13/10

Resposta maravilhosa. Obrigado pela compreensão. Uma pergunta: perdi o que você quis dizer com a frase "o vetor médio está em L ". Você pode explicar? Você está tentando definir E ? definir L ? algo mais? Talvez essa frase esteja tentando fazer muito ou ser muito concisa para mim. Você pode elaborar qual é a definição de E no contexto mencionado: é apenas E ( x 1 , x 2 , , x n ) = ( x 1 + x 2 + + xEXLELE ? Você pode elaborar o que é L nesse contexto (de coordenadas iid normais)? É apenas L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW O é o operador de expectativa. Então, E ( X ) é o vetor de expectativas coordinatewise de X . O subespaço L é qualquer subespaço p- dimensional de R n . É um espaço de n vetores e certamente não R , mas pode muito bem ser unidimensional. O exemplo mais simples talvez seja quando é estendido pelo vetor 1 com um 1 em todas as coordenadas n . Este é o modelo de todas as coordenadas de X com o mesmo valor médio, mas muitos modelos mais complicados são possíveis. EE(X)XLpRnnR1nX
NRH

30

Não é realmente diferente da maneira como o termo "graus de liberdade" funciona em qualquer outro campo. Por exemplo, suponha que você tenha quatro variáveis: comprimento, largura, área e perímetro de um retângulo. Você realmente sabe quatro coisas? Não, porque existem apenas dois graus de liberdade. Se você conhece o comprimento e a largura, pode derivar a área e o perímetro. Se você conhece o comprimento e a área, pode derivar a largura e o perímetro. Se você conhece a área e o perímetro, pode derivar o comprimento e a largura (até a rotação). Se você tiver todas as quatro, poderá dizer que o sistema é consistente (todas as variáveis ​​concordam umas com as outras) ou inconsistente (nenhum retângulo poderia realmente satisfazer todas as condições). Um quadrado é um retângulo com um grau de liberdade removido;

Nas estatísticas, as coisas ficam mais confusas, mas a ideia ainda é a mesma. Se todos os dados que você está usando como entrada para uma função forem variáveis ​​independentes, você terá tantos graus de liberdade quanto entradas. Mas se eles tiverem alguma dependência, de tal forma que, se você tivesse n - k entradas, poderia descobrir o k restante, na verdade, você só terá n - k graus de liberdade. E às vezes você precisa levar isso em conta, para não se convencer de que os dados são mais confiáveis ​​ou têm mais poder preditivo do que realmente, contando mais pontos de dados do que realmente possui bits de dados independentes.

(Retirado de uma postagem em http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Além disso, todas as três definições estão quase tentando transmitir a mesma mensagem.


1
Basicamente certo, mas estou preocupado que o parágrafo do meio possa ser lido de uma maneira que confunda correlação, independência (de variáveis ​​aleatórias) e independência funcional (de uma variedade de parâmetros). A distinção correlação-independência é particularmente importante de manter.
whuber

@ Whuber: está tudo bem agora?
Biostat 12/10

3
Está correto, mas a maneira como ele usa os termos provavelmente confundirá algumas pessoas. Ainda não distingue explicitamente a dependência de variáveis ​​aleatórias da dependência funcional. Por exemplo, as duas variáveis ​​em uma distribuição normal bivariada (não regenerada) com correlação diferente de zero serão dependentes (como variáveis ​​aleatórias), mas ainda oferecem dois graus de liberdade.
whuber

5
Isso foi copiado e colado de um post do reddit que fiz em 2009 .
Hobbs

2
Nossa Central de Ajuda fornece orientações claras sobre como fazer referência a materiais escritos por outras pessoas , por isso espero que o OP volte a esta postagem para tomar as ações apropriadas e se engajar em interações construtivas (ainda não o vemos há algum tempo).
chl

19

Eu realmente gosto da primeira frase do The Little Handbook of Statistical Practice. Graus de liberdade capítulo

Uma das perguntas que um instrutor mais teme de um público matematicamente pouco sofisticado é: "O que exatamente são graus de liberdade?"

Acho que você pode entender muito bem os graus de liberdade ao ler este capítulo.


6
Seria bom ter uma explicação sobre por que os graus de liberdade são importantes, e não apenas o que são. Por exemplo, mostrar que a estimativa de variação de 1 / n é enviesada, mas o uso de 1 / (n-1) produz um estimador imparcial.
Tristan

9

A Wikipedia afirma que os graus de liberdade de um vetor aleatório podem ser interpretados como as dimensões do subespaço vetorial. Eu quero ir passo a passo, basicamente através disso, como uma resposta parcial e elaboração na entrada da Wikipedia.

[abc]T[111]Tx¯=1/3(a+b+c)[x¯x¯x¯]T1[111]T1degree of freedom(n1)n1degrees of freedomn3R3[x¯x¯x¯]T[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

[355080]T55[555555]T55x+55y+55z=DD=9075

55[111]T55R22degrees of freedomR3[555555]T

[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

Nas minhas aulas, uso uma situação "simples" que pode ajudá-lo a se perguntar e talvez desenvolver um pressentimento sobre o significado de um certo grau de liberdade.

É uma espécie de abordagem "Forrest Gump" para o assunto, mas vale a pena tentar.

X1,X2,,X10N(μ,σ2)μσ2

μσ2μμμX¯

σ2σ2X1X10

μσ2μμσ2

μX¯μX¯σ2S2σ

μσ2X¯μS2σ2

Mas você pode estar em diferentes níveis de erro, variando de um pouco errado a muito, muito, muito miseravelmente errado (também conhecido como "Adeus, cheque de pagamento; até a próxima semana!").

X¯μS2=2S2=20,000,000σ2σ2X¯ para variar.

μσ2μσ2

Como você pode perceber isso?

μσ

E aqui está a reviravolta irritante na trama deste conto lisérgico: Ele conta para você depois que você faz a sua aposta. Talvez para esclarecê-lo, talvez para prepará-lo, talvez para zombar de você. Como você poderia saber?

μσ2X¯S2μσ2

μX¯(X¯μ)

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

(Xiμ)/σN(0,1)μσ2

μσ2

[Prefiro pensar que você está pensando no último.]

Sim existe!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10) Cada uma dessas distribuição qui-quadrado única é uma contribuição para a quantidade de variabilidade aleatória que você deve esperar enfrentar, com aproximadamente a mesma quantidade de contribuição para a soma.

O valor de cada contribuição não é matematicamente igual às outras nove, mas todas elas têm o mesmo comportamento esperado na distribuição. Nesse sentido, eles são de alguma forma simétricos.

Cada um desses qui-quadrado é uma contribuição para a quantidade de variabilidade pura e aleatória que você deve esperar nessa soma.

Se você tivesse 100 observações, seria esperado que a soma acima fosse maior apenas porque possui mais fontes de contribuição .

Cada uma dessas "fontes de contribuições" com o mesmo comportamento pode ser chamada de grau de liberdade .

Agora, dê um ou dois passos para trás, releia os parágrafos anteriores, se necessário, para acomodar a chegada repentina do seu grau de liberdade solicitado .

μσ2

O problema é que você começa a contar com o comportamento dessas 10 fontes equivalentes de variabilidade. Se você tivesse 100 observações, teria 100 fontes independentes de comportamento igual de flutuação estritamente aleatória para essa soma.

χ102χ12

μσ2

μσ2

As coisas começam a ficar estranhas (Hahahaha; só agora!) Quando você se rebela contra Deus e tenta se dar bem sozinho, sem esperar que Ele o patrocine.

X¯S2μσ2

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"Foi tudo por nada?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.

O primeiro termo possui distribuição qui-quadrado com 10 graus de liberdade e o último termo possui distribuição qui-quadrado com um grau de liberdade (!).

Simplesmente dividimos um qui-quadrado com 10 fontes independentes de variabilidade de comportamento igual em duas partes, ambas positivas: uma parte é um qui-quadrado com uma fonte de variabilidade e a outra que podemos provar (salto de fé? Vencer pelo WO? ) ser também um qui-quadrado com 9 (= 10-1) fontes independentes de variabilidade de comportamento igual, com ambas as partes independentes uma da outra.

Essa já é uma boa notícia, já que agora temos sua distribuição.

σ2

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

t

[^ 1]: @whuber disse nos comentários abaixo que Gosset não fez as contas, mas adivinhou ! Realmente não sei qual feito é mais surpreendente para aquela época.

t(101)X¯μS2X¯

Ai está. Com muitos detalhes técnicos varridos grosseiramente para trás do tapete, mas não dependendo apenas da intervenção de Deus para apostar perigosamente todo o seu salário.


1
1010

Muito obrigado pela sua avaliação, @whuber! É incrível quantos erros de digitação surgem quando você esquece o que escreveu. Sobre sua avaliação, pretendi apenas ilustrar outra maneira de pensar - um pouco menos matemática em algum sentido. Além disso, não estou entendendo completamente o que você quis dizer com. Se, em vez disso, você resumisse 10 variáveis ​​normais independentes em vez de 10 variáveis ​​independentes do qui-quadrado, você terminaria com - uma variável normal - que imaginei manter seu ponto-chave. . Vou tentar elaborar sobre isso, na esperança de melhorar o post.
Marcelo Ventura

2

Uma explicação intuitiva dos graus de liberdade é que eles representam o número de informações independentes disponíveis nos dados para estimar um parâmetro (ou seja, quantidade desconhecida) de interesse .

Como exemplo, em um modelo de regressão linear simples do formulário:

Yi=β0+β1Xi+ϵi,i=1,,n

ϵiσβ0β1nn2n2σ


Muito obrigado pelas edições da minha resposta, @COOLSerdash!
Isabella Ghement

2

nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

Para mais informações, consulte este


0

Para mim, a primeira explicação que entendi foi:

Se você conhece algum valor estatístico, como média ou variação, quantas variáveis ​​de dados você precisa conhecer antes de saber o valor de cada variável?

É o mesmo que o aL3xa disse, mas sem atribuir a nenhum ponto de dados um papel especial e próximo ao terceiro caso fornecido na resposta. Dessa maneira, o mesmo exemplo seria:

Se você conhece a média dos dados, precisa conhecer os valores de todos, exceto um ponto de dados, para saber o valor de todos os pontos de dados.


Variáveis ​​-> observações
Richard Hardy

0

xyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1x1x¯=0i=1n(xix¯)2n100xn=2x1x2x¯=x1+x22x¯x1x2nx¯nn1

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.