Como obter um intervalo de confiança na mudança do quadrado da população

Para um exemplo simples, assuma que existem dois modelos de regressão linear

Modelo 1 tem três preditores, x1a, x2b, ex2c
O modelo 2 possui três preditores do modelo 1 e dois preditores adicionais x2aex2b

Existe uma equação de regressão populacional em que a variação populacional explicada é para o Modelo 1 e para o Modelo 2. A variação incremental explicada pelo Modelo 2 na população é $\rho^2_{(1)}$ $\rho^2_{(2)}$ $\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)}$

Estou interessado em obter erros padrão e intervalos de confiança para um estimador de . Embora o exemplo envolva 3 e 2 preditores, respectivamente, meu interesse em pesquisa diz respeito a uma ampla gama de diferentes números de preditores (por exemplo, 5 e 30). Meu primeiro pensamento foi usar como um estimador e inicializá-lo, mas não tinha certeza se isso seria possível. seja apropriado. $\Delta\rho^2$ $\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}$

Questões

É um estimador razoável de ? $\Delta r^2_{adj}$ $\Delta \rho^2$
Como um intervalo de confiança pode ser obtido para a mudança r-quadrado da população (isto é, )? $\Delta\rho^2$
O bootstrapping seria apropriado para o cálculo do intervalo de confiança? $\Delta\rho^2$

Qualquer referência a simulações ou a literatura publicada também seria bem-vinda.

Código de exemplo

Se ajudar, criei um pequeno conjunto de dados de simulação em R que poderia ser usado para demonstrar uma resposta:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Motivo de preocupação com o bootstrap

Eu executei um bootstrap em alguns dados com cerca de 300 casos e 5 preditores no modelo simples e 30 preditores no modelo completo. Enquanto a estimativa da amostra usando diferença quadrática r ajustada foi 0.116, o intervalo de confiança aumentado foi maior IC95% (0,095 a 0,214) e a média dos bootstraps não ficou nem perto da estimativa da amostra. Em vez disso, a média das amostras com boostrapped parecia estar centrada na estimativa amostral da diferença entre os quadrados r na amostra. Isso apesar do fato de eu estar usando os quadrados r ajustados da amostra para estimar a diferença.

Curiosamente, tentei uma maneira alternativa de calcular como $\Delta\rho^2$

calcular amostra de mudança quadrada r
ajuste a alteração do quadrado r da amostra usando a fórmula r-quadrado ajustada padrão

Quando aplicado aos dados da amostra, reduziu a estimativa de para, mas os intervalos de confiança pareciam apropriados para o método que mencionei primeiro, IC95% (0,062, 0,19) com média de 0,118. $\Delta \rho^2$ .082

Em termos gerais, estou preocupado que o bootstrapping assuma que a amostra é a população e, portanto, as estimativas de que a redução por sobreajuste pode não ter um desempenho adequado.

regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

— Jeromy Anglim
fonte

"No entanto, estou preocupado que o bootstrap desse valor ajustado pela população possa ser problemático". -- porque?

— janeiro

@ Janeiro editei a pergunta e tentei articular minha preocupação sobre o bootstrap com o r-square ajustado.

— Jeromy Anglim

Qual é a população R ao quadrado ? Eu dei uma olhada na definição dada aqui , mas para mim a variância

não faz sentido porque o

não são identicamente distribuídos.

σ_{y}^{2}

$\sigma^2_y$

y_{i}

$y_i$

— Stéphane Laurent

@ StéphaneLaurent é a porcentagem de variância explicada na população pela equação de regressão populacional. Ou você pode defini-lo assintoticamente como a proporção de variação explicada em sua amostra à medida que o tamanho da amostra se aproxima do infinito. Veja também esta resposta sobre estimativas imparciais da população r-quadrado . É particularmente relevante na psicologia, onde geralmente estamos mais interessados no verdadeiro relacionamento, em vez de realmente aplicar nossa equação de previsão estimada.

— Jeromy Anglim

Um teste F pode ser pensado como teste da hipótese

. Isso pode ser usado para derivar o erro padrão e o intervalo de confiança que você está procurando?

Δ ρ^{2} = 0

$\Delta\rho^2 = 0$

— Maarten Buis

Respostas:

População $R^2$

Em primeiro lugar, estou tentando entender a definição da população R-quadrado .

Citando seu comentário:

Ou você pode defini-lo assintoticamente como a proporção de variação explicada em sua amostra à medida que o tamanho da amostra se aproxima do infinito.

Eu acho que você quer dizer este é o limite da amostra quando se reproduz o modelo infinitamente muitas vezes (com os mesmos preditores em cada repetição). $R^2$

Então, qual é a fórmula para o valor assintótico da amostra ? Escreva seu modelo linear como em https://stats.stackexchange.com/a/58133/8402 e use as mesmas notações que este link. Em seguida, pode-se verificar que a amostra vai para $R^²$ $\boxed{Y=\mu+\sigma G}$
$R^2$ quando se replica o modeloinfinitamente várias vezes. $\boxed{popR^2:=\dfrac{\lambda}{n+\lambda}}$ $Y=\mu+\sigma G$

Como exemplo:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

População de um submodelo $R^2$

Agora vamos supor que o modelo é com e considerar o submodelo . $\boxed{Y=\mu+\sigma G}$ $H_1\colon\mu \in W_1$ $H_0\colon \mu \in W_0$

$R^2$ $H_1$ $\boxed{popR^2_1:=\dfrac{\lambda_1}{n+\lambda_1}}$ $\boxed{\lambda_1=\frac{{\Vert P_{Z_1} \mu\Vert}^2}{\sigma^2}}$ $Z_1=[1]^\perp \cap W_1$ ${\Vert P_{Z_1} \mu\Vert}^2=\sum(\mu_i - \bar \mu)^2$

Agora você define a população do submodelo como o valor assintótico do calculado em relação ao modelo mas sob a premissa distributiva do modelo ? O valor assintótico (se houver) parece mais difícil de encontrar. $R^2$ $H_0$ $R^2$ $H_0$ $H_1$

— Stéphane Laurent
fonte

Obrigado Stéphane. Vou ter que pensar no que você está dizendo. Com relação à sua pergunta. Presumo que o verdadeiro processo de geração de dados não é conhecida, mas que é a mesma fo ambos os modelos, mas que há uma verdadeira proporção da variância explicada pela regressão linear no modelo 1 e modelo 2.

— Jeromy Anglim

R^{2}

$R^2$

@JeromyAnglim O estudo deste artigo parece estar próximo do que você está procurando (com preditores aleatórios).

— Stéphane Laurent

Obrigado. O artigo de Algina, Keselman e Penfield parece muito útil. Eu adicionei alguns comentários à minha resposta sobre isso.

— perfil completo de Jeromy Anglim

@JeromyAnglim Então, qual é a suposição sobre os preditores? Eles são gerados de acordo com uma distribuição gaussiana multivariada?

— Stéphane Laurent

Em vez de responder à pergunta que você fez, vou perguntar por que você faz essa pergunta. Eu presumo que você quer saber se

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

é pelo menos tão bom quanto

mod.large <- lm(y ~ ., data=x)

em explicar y. Como esses modelos estão aninhados, a maneira óbvia de responder a essa pergunta parece ser executar uma análise de variação comparando-os, da mesma maneira que você pode executar uma análise de desvio para dois GLMs, como

anova(mod.small, mod.large)

Em seguida, você pode usar a melhoria do quadrado R da amostra entre os modelos como seu melhor palpite sobre qual seria a melhoria de ajuste na população, sempre assumindo que você pode entender o sentido da população ao quadrado R. Pessoalmente, não tenho certeza de que posso, mas com isso não importa de qualquer maneira.

De maneira mais geral, se você está interessado em quantidades populacionais, provavelmente está interessado em generalização, portanto, uma medida de ajuste da amostra não é exatamente o que você deseja, por mais 'corrigida'. Por exemplo, a validação cruzada de alguma quantidade que estima o tipo e a quantidade de erros reais que você poderia esperar da amostra, como o MSE, pareceria obter o que deseja.

Mas é bem possível que eu esteja perdendo alguma coisa aqui ...

— conjugado
fonte

Agradeço sua resposta e pode ser um bom conselho para os outros. Mas meu contexto de pesquisa significa que estou legitimamente interessado na praça delta-rho. Embora a maioria dos estatísticos se preocupe com a utilidade preditiva de um modelo (por exemplo, delta r-square com validação cruzada), sou um cientista psicológico e estou especificamente interessado na propriedade da população. Além disso, não estou interessado na significância estatística da melhoria. Estou interessado no tamanho da melhoria. E acho que delta-r-square é uma métrica útil para indexar esse tamanho de melhoria.

— Jeremy Anglim

Com relação ao MSE, diferentes estudos em psicologia usam medidas em métricas muito diferentes. Assim, existe uma atração, certa ou errada, para medidas padronizadas como o quadrado r.

— perfil completo de Jeromy Anglim

Justo, principalmente no MSE. Permaneço um pouco confuso com o interesse em bootstrapping e inferência da população, mas a falta de interesse em testar, pois, talvez de forma ingênua, essas parecem ser preocupações equivalentes abordadas de maneira diferente. Também estou tendo dificuldade em distinguir totalmente a previsão fora da amostra da inferência para uma população, mas isso provavelmente é um bayesianismo antes do café (onde a previsão é apenas mais um problema de inferência da população) atrapalhando.

— conjugateprior

Talvez eu tenha falado um pouco rápido. No meu contexto de pesquisa, há muitas evidências de que o delta-rho-quadrado é maior que zero. A questão do interesse é qual é o grau de aumento. Ou seja, é um aumento trivial ou um aumento teoricamente significativo. Assim, a confiança ou intervalos credíveis me dão uma estimativa da incerteza em torno desse aumento. Ainda não reconciliei o que estou fazendo aqui com minha compreensão das estatísticas bayesianas, mas gostaria de fazê-lo.

— Jeromy Anglim

$\rho^2$

Bootstrap r-quadrado com ajuste duplo

Meu melhor palpite atual para uma resposta é fazer um bootstrap r-square com ajuste duplo. Eu implementei a técnica. Envolve o seguinte:

Gere um conjunto de amostras de autoinicialização a partir dos dados atuais.
Para cada amostra de inicialização:
- calcular o primeiro quadrado r ajustado para os dois modelos
- calcular o segundo quadrado r ajustado nos valores ajustados do quadrado r do passo anterior
- $\Delta \rho^2$

A lógica é que o primeiro quadrado r ajustado ajusta o viés introduzido pelo bootrapping (isto é, o bootstrapping assume que a amostra r-square é a população r-square). O segundo quadrado r ajustado ajusta a correção padrão aplicada a uma amostra normal para estimar o quadrado r da população.

Neste ponto, tudo o que vejo é que a aplicação desse algoritmo gera estimativas que parecem corretas (ou seja, a média theta_hat no bootstrap está muito próxima da amostra theta_hat). O erro padrão está alinhado com a minha intuição. Ainda não testei se ele fornece cobertura freqüentista adequada onde o processo de geração de dados é conhecido, e também não tenho muita certeza, neste ponto, de como o argumento poderia ser justificado a partir dos primeiros princípios.

Se alguém perceber algum motivo pelo qual essa abordagem seria problemática, ficaria grato em saber disso.

Simulação por Algina et al

$\Delta \rho^2$

Smithson (2001) sobre o uso do parâmetro noncentrality

$R^2$ $f^2$ $R^2$

Referências

Algina, J., Keselman, HJ, & Penfield, RD Intervalos de Confiança para o Coeficiente de Correlação Semipartial Múltiplo ao Quadrado. PDF
Smithson, M. (2001). Intervalos de confiança corretos para vários tamanhos e parâmetros de efeitos de regressão: A importância de distribuições não centrais em intervalos de computação. Medida educacional e psicológica, 61 (4), 605-632.

— Jeromy Anglim
fonte

Parece que ninguém aqui (incluindo você) conhece a definição de sua população ao quadrado-R. Portanto, o IMHO é uma abordagem seriamente problemática.

— Stéphane Laurent

@ StéphaneLaurent Obrigado por isso. Confesso que até esse momento não vi a população quadrada como uma propriedade de contenção. Por exemplo, eu poderia propor um processo de geração de dados e haveria um quadrado r aproximado à medida que meu tamanho de amostra de simulação se aproxima do infinito. Da mesma forma, presumo que exista um processo de geração de dados para meus dados e, portanto, se fosse possível obter uma amostra infinita, eu poderia calcular a verdadeira população r-square.

— Jeremy Anglim

Sim, mas tenho a impressão de que você também assume um processo de geração para os preditores. Não consigo imaginar como isso poderia fazer sentido para um modelo linear geral.

— Stéphane Laurent

Como obter um intervalo de confiança na mudança do quadrado da população

Questões

Código de exemplo

Motivo de preocupação com o bootstrap

População R2R2R^2

População de um submodeloR2R2R^2

Bootstrap r-quadrado com ajuste duplo

Simulação por Algina et al

Smithson (2001) sobre o uso do parâmetro noncentrality

Referências

População $R^2$

População de um submodelo $R^2$