Graus de liberdade residual apropriados após a eliminação dos termos de um modelo

Estou refletindo sobre a discussão em torno desta questão e, em particular, o comentário de Frank Harrell de que a estimativa de variação em um modelo reduzido (ou seja, do qual várias variáveis explicativas foram testadas e rejeitadas) deve usar os graus de liberdade generalizados de Ye . O professor Harrell ressalta que isso estará muito mais próximo dos graus residuais de liberdade do modelo "completo" original (com todas as variáveis inseridas) do que do modelo final (do qual várias variáveis foram rejeitadas).

Questão 1. Se eu quiser usar uma abordagem apropriada para todos os resumos e estatísticas padrão de um modelo reduzido (mas com falta de uma implementação completa dos Graus de Liberdade Generalizados), uma abordagem razoável seria usar apenas os graus residuais de liberdade de o modelo completo em minhas estimativas de variância residual, etc?

Pergunta 2. Se o exposto acima for verdadeiro e eu quero fazer isso R, pode ser tão simples quanto definir

finalModel$df.residual <- fullModel$df.residual

em algum momento do exercício de ajuste de modelo, em que finalModel e fullModel foram criados com lm () ou uma função semelhante. Após o qual funções como summary () e confint () parecem funcionar com o df.residual desejado, embora retorne uma mensagem de erro informando que alguém claramente se interessou pelo objeto finalModel.

r regression model-selection regression-strategies

— Peter Ellis
fonte

Boa pergunta. Isso está relacionado ao motivo pelo qual Douglas Bates não inclui valores-p na lmersaída. Veja o raciocínio dele aqui .

Eu vi o modelo completo df usado em tal situação mais de uma vez. (A abordagem de Ye aparece muito em situações diferentes; é um documento que eu recomendo às pessoas regularmente. Seria bom ter alguma função R genérica, mas eficiente, da qual muitas funções pudessem tirar proveito.)

— Glen_b -Reinstate Monica

Você discorda da resposta de @ FrankHarrel de que a parcimônia vem com algumas trocas científicas feias?

Adoro o link fornecido no comentário de @ MikeWiezbicki à lógica de Doug Bates. Se alguém discordar de sua análise, eles podem fazer do seu jeito, e essa é uma maneira divertida de iniciar uma discussão científica sobre suas suposições básicas. Um valor-p não torna sua conclusão uma "verdade absoluta".

Se a decisão de incluir ou não um parâmetro em seu modelo se resume a "escolher os cabelos" sobre o que são, para amostras cientificamente significativas, discrepâncias relativamente pequenas no df - e você não está lidando com problemas que justificam qualquer inferência mais sutil, de qualquer maneira - então você tem um parâmetro tão próximo de atender aos seus pontos de corte que deve ser transparente e falar sobre isso de qualquer maneira: inclua-o ou analise o modelo com e sem ele, mas definitivamente discuta de forma transparente sua decisão. a análise final. $n<p$

— egbutter
fonte

+1 e agora estou inclinado a concordar que de fato minha pergunta original não é tão importante dado essas outras questões

— Peter Ellis