Os graus de liberdade podem ser um número não inteiro?


27

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Em geral, sim, df pode ser um número de ponto flutuante.
David Lane

6
Você provavelmente quer perguntar sobre um número real (ou um número que não é inteiro); um número de ponto flutuante é um conceito de computador (uma maneira de aproximar números reais) que se relaciona à implementação, mas você está realmente perguntando sobre a ideia matemática subjacente (e melhor ainda fazer uma pergunta matemática). Muitas vezes, encontramos situações em que (por um motivo ou outro, nem sempre bom) uma quantidade que é conceitualmente um número inteiro está, no entanto, em implementação armazenada como um número de ponto flutuante. Sugiro "Um modelo pode ter graus de liberdade não inteiros?" para o título.
Glen_b -Reinstate Monica

Respostas:


40

kk+1

Geralmente pensamos em graus de liberdade como o número de parâmetros livres, mas há situações em que os parâmetros não são completamente livres e podem ser difíceis de contar. Isso pode acontecer ao suavizar / regularizar, por exemplo.

Os casos de métodos de regressão / kernel ponderados localmente e splines de suavização são exemplos dessa situação - um número total de parâmetros livres não é algo que você pode contar facilmente adicionando preditores, portanto, é necessária uma idéia mais geral dos graus de liberdade.

gamy^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)XA

tr(A)

iy^iyitr(A)y^y^iyi

Para modelos como aqueles ajustados por gam, essas várias medidas geralmente não são inteiras.

(Eu recomendo a leitura da discussão dessas referências sobre esse assunto, embora a história possa se tornar um pouco mais complicada em algumas situações. Veja, por exemplo, [4])

[1] Hastie, T. e Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman e Hall.

[2] Hastie, T., Tibshirani, R. e Friedman, J. (2009),
The Elements of Statistical Learning: Data Mining, Inference, and Prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
"Medindo e corrigindo os efeitos da mineração de dados e seleção de modelos"
Journal of the American Statistical Association , vol. 93, n. 441, pp 120-131

[4] Janson, L., Fithian, W. e Hastie, T. (2013),
"Graus efetivos de liberdade: uma metáfora defeituosa"
https://arxiv.org/abs/1312.7851


7
Não é relevante para este caso, mas o teste t de duas amostras de Welch, quando as variações são desiguais, pode ter um número não inteiro de graus de liberdade.
Michael R. Chernick

5
Assim como o df corrigido por epsilon em medidas repetidas ANOVA.
David Lane

2
Outra referência é statweb.stanford.edu/~tibs/ElemStatLearn/printings/… seção 5.4.1 Graus de liberdade e matrizes mais suaves
Adrian

11
@Adrian thanks; Eu estava pensando se deveria adicionar apenas essa referência (e em particular se deveria mencionar a eqn 5.16 na seção que você aponta).
Concluí
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.