Esta é uma história sobre graus de liberdade e parâmetros estatísticos e por que é bom que os dois tenham uma conexão direta direta.
Historicamente, os termos " " apareceram nos estudos de Euler da função Beta. Ele usava essa parametrização em 1763, assim como Adrien-Marie Legendre: o uso deles estabeleceu a convenção matemática subsequente. Este trabalho antecede todas as aplicações estatísticas conhecidas.−1
A teoria matemática moderna fornece amplas indicações, através das inúmeras aplicações em análise, teoria dos números e geometria, de que os termos " " realmente têm algum significado. Eu esbocei alguns desses motivos nos comentários à pergunta.−1
De mais interesse é o que deveria ser a parametrização estatística "certa". Isso não é tão claro e não precisa ser o mesmo que a convenção matemática. Existe uma enorme rede de famílias comumente usadas, conhecidas e inter-relacionadas de distribuições de probabilidade. Portanto, as convenções usadas para nomear (ou seja, parametrizar) uma família geralmente implicam convenções relacionadas para nomear famílias relacionadas. Altere uma parametrização e você desejará alterá-las todas. Podemos, portanto, olhar para esses relacionamentos em busca de pistas.
Poucas pessoas discordariam que as famílias de distribuição mais importantes derivam da família Normal. Recorde-se que uma variável aleatória é dito ser "Normalmente distribuído" quando ( X - μ ) / σ tem uma densidade de probabilidade f ( x ) proporcional a exp ( - x 2 / 2 ) . Quando σ = 1 e μ = 0 , diz-se que X tem uma distribuição normal padrão .X(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
Muitos conjuntos de dados são estudados usando estatísticas relativamente simples envolvendo combinações racionais dos dados e baixas potências (normalmente quadrados). Quando esses dados são modelados como amostras aleatórias de uma distribuição Normal - de modo que cada x i é visto como uma realização de uma variável Normal X i , todos os X i compartilham uma distribuição comum e são independentes - as distribuições dessas estatísticas são determinados por essa distribuição normal. Os que surgem mais frequentemente na prática sãox1,x2,…,xnxiXiXi
,adistribuição t de Studentcom ν = n - 1 "graus de liberdade". Esta é a distribuição da estatística t = ˉ Xtνtν=n−1 onde ˉ X =(X1+X2+⋯+Xn)/nmodela a média dos dados ese(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/n é o erro padrão da média. A divisão porn-1mostra quendeve ser2ou maior, de ondevé um número inteiro1ou maior. A fórmula, embora aparentemente um pouco complicada, é a raiz quadrada de uma função racional dos dados do segundo grau: é relativamente simples.se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1
,adistribuição χ 2 (qui-quadrado)com ν "graus de liberdade" (df). Esta é a distribuição da soma dos quadrados de ν variáveis normais padrão independentes. A distribuição da média dos quadrados dessas variáveis será, portanto, χχ2νχ2ννdistribuição 2 escalada em 1 / ν : vou me referir a isso como umadistribuição χ 2 "normalizada".χ21/νχ2
,adistribuição da razão F com os parâmetros ( ν 1 , ν 2 ) é a razão de duasvariáveisnormalizadas independentesFν1,ν2F(ν1,ν2)distribuições χ 2com ν 1 e ν 2 graus de liberdade.χ2ν1ν2
Cálculos matemáticos mostram que todas essas três distribuições têm densidades. Importante, a densidade dodistribuição χ 2 ν é proporcional ao integrando na definição integral de Euler da função Gamma ( Γ ). Vamos compará-los:χ2νΓ
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
Isso mostra que duas vezes uma variável tem uma distribuição gama com o parâmetro ν / 2 . O fator da metade é bastante incômodo, mas subtrair 1 tornaria o relacionamento muito pior. Isso já fornece uma resposta convincente à pergunta: se queremos que o parâmetro de um χ 2 de distribuição para contar o número de variáveis normais quadrados que o produzem (até um factor de 1 / 2 ), então o expoente em sua função de densidade must ser um a menos da metade dessa contagem. χ2νν/21χ21/2
Por que é o fator de menos problemático do que uma diferença de 1 ? A razão é que o fator permanecerá consistente quando somarmos as coisas. Se a soma dos quadrados de n normais normais independentes for proporcional a uma distribuição gama com parâmetro n (vezes algum fator), então a soma dos quadrados de m normais normais independentes é proporcional a uma distribuição gama com parâmetro m (vezes o mesmo fator) , onde a soma dos quadrados de todas as variáveis n + m é proporcional a uma distribuição gama com o parâmetro m + n (ainda é o mesmo fator). 1/21nnmmn+mm+nO fato de adicionar os parâmetros emular tanto a adição de contagens é muito útil.
Se, no entanto, formos remover esse " " de aparência traquina das fórmulas matemáticas, esses bons relacionamentos se tornarão mais complicados. Por exemplo, se alterássemos a parametrização das distribuições Gama para nos referirmos à potência real de x na fórmula, de modo que uma distribuição χ 2 1 estaria relacionada a uma distribuição "Gama ( 0 ) " (uma vez que a potência de x em sua PDF é 1 - 1 = 0 ), então a soma de três χ−1xχ21(0)x1−1=0distribuições 2 1 teria que ser chamada de "Gama(2)χ21(2)"distribuição. Em suma, a estreita relação aditiva entre graus de liberdade e o parâmetro nas distribuições Gamma seria perdida removendo o da fórmula e absorvendo-o no parâmetro.−1
Da mesma forma, a função de probabilidade de uma distribuição da razão está intimamente relacionada às distribuições Beta. De fato, quando Y tem uma distribuição de razão F , a distribuição de Z = ν 1 Y / ( ν 1 Y + ν 2 ) tem um Beta ( ν 1 /FYFZ=ν1Y/(ν1Y+ν2) de distribuição. Sua função de densidade é proporcional a(ν1/2,ν2/2)
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Além disso - tomando essas idéias em um círculo completo - o quadrado de uma distribuição Student com ν df tem uma distribuição de razão F com parâmetros ( 1 , ν ) . Mais uma vez, é evidente que manter a parametrização convencional mantém uma relação clara com as contagens subjacentes que contribuem para os graus de liberdade.tνF(1,ν)
Do ponto de vista estatístico, então, seria mais natural e simples de usar uma variação das parametrizações matemáticas convencionais de e distribuição beta: devemos preferir chamar um Γ ( α ) de distribuição de um " Γ ( 2 α ) de distribuição" e a distribuição beta ( α , β ) deve ser chamada de "distribuição beta ( 2 α , 2 β ) ". De fato, já fizemos isso: é exatamente por isso que continuamos a usar os nomes "Qui-quadrado" e " FΓΓ(α)Γ(2α)(α,β)(2α,2β)F distribuição "Razão " em vez de "Gama" e "Beta". Independentemente, em nenhum caso gostaríamos de remover os termos " " que aparecem nas fórmulas matemáticas de suas densidades.−1 Se o fizéssemos, perderíamos a conexão direta entre os parâmetros nas densidades e as contagens de dados às quais eles estão associados: sempre estaríamos desligados por um.