Para um exemplo simples, assuma que existem dois modelos de regressão linear
- Modelo 1 tem três preditores,
x1a
,x2b
, ex2c
- O modelo 2 possui três preditores do modelo 1 e dois preditores adicionais
x2a
ex2b
Existe uma equação de regressão populacional em que a variação populacional explicada é para o Modelo 1 e para o Modelo 2. A variação incremental explicada pelo Modelo 2 na população é ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Estou interessado em obter erros padrão e intervalos de confiança para um estimador de . Embora o exemplo envolva 3 e 2 preditores, respectivamente, meu interesse em pesquisa diz respeito a uma ampla gama de diferentes números de preditores (por exemplo, 5 e 30). Meu primeiro pensamento foi usar como um estimador e inicializá-lo, mas não tinha certeza se isso seria possível. seja apropriado. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Questões
- É um estimador razoável de ? Δ p 2
- Como um intervalo de confiança pode ser obtido para a mudança r-quadrado da população (isto é, )?
- O bootstrapping seria apropriado para o cálculo do intervalo de confiança?
Qualquer referência a simulações ou a literatura publicada também seria bem-vinda.
Código de exemplo
Se ajudar, criei um pequeno conjunto de dados de simulação em R que poderia ser usado para demonstrar uma resposta:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Motivo de preocupação com o bootstrap
Eu executei um bootstrap em alguns dados com cerca de 300 casos e 5 preditores no modelo simples e 30 preditores no modelo completo. Enquanto a estimativa da amostra usando diferença quadrática r ajustada foi 0.116
, o intervalo de confiança aumentado foi maior IC95% (0,095 a 0,214) e a média dos bootstraps não ficou nem perto da estimativa da amostra. Em vez disso, a média das amostras com boostrapped parecia estar centrada na estimativa amostral da diferença entre os quadrados r na amostra. Isso apesar do fato de eu estar usando os quadrados r ajustados da amostra para estimar a diferença.
Curiosamente, tentei uma maneira alternativa de calcular como
- calcular amostra de mudança quadrada r
- ajuste a alteração do quadrado r da amostra usando a fórmula r-quadrado ajustada padrão
Quando aplicado aos dados da amostra, reduziu a estimativa de para, mas os intervalos de confiança pareciam apropriados para o método que mencionei primeiro, IC95% (0,062, 0,19) com média de 0,118..082
Em termos gerais, estou preocupado que o bootstrapping assuma que a amostra é a população e, portanto, as estimativas de que a redução por sobreajuste pode não ter um desempenho adequado.