Qual é o impacto da duplicação de um tamanho de amostra em um valor-p

Supondo que seja uma relação subjacente entre duas variáveis em uma regressão OLS [teste de hipótese nula], qual é o impacto no valor p de duplicar o tamanho da amostra? (supondo que a amostra inicial seja representativa da população e a amostra subsequente também seja representativa).

Obviamente, estou ciente de que, enquanto houver um relacionamento subjacente, o aumento do tamanho da amostra deve reduzir o valor de p, mas estou interessado em entender melhor a natureza do relacionamento entre p e n.

least-squares power-analysis

— Kyrenia
fonte

Suponho que você esteja pensando no valor de associado ao que é calculado para cada coeficiente de regressão. Não tenho a resposta, mas se você quiser explorar esse problema, considere o tamanho da amostra que atua nesse valor de duas maneiras. Em primeiro lugar, o aumento de N significa uma diminuição do erro padrão e, consequentemente, um maior . Em segundo lugar, para um dado

p

$p$

t

$t$

p

$p$

t

$t$

t

$t$ , aumentar N aumentará df (ocasionalmente denominado

v

$v$ no

t

$t$ -distribuição), que em prazo aumentará a

p

$p$ valor associado a esse

t

$t$ .

— Ian_Fin

@Ian_Fin, Aumentando os graus de liberdade com a diminuição do valor-p, tudo o mais é igual.

— not_bonferroni

@not_bonferroni Good spot! Eu devo ter pensado em termos de coisas cada vez mais significativas e digitado a palavra errada.

— Ian_Fin

Aumentar o tamanho da amostra tenderá a aumentar o valor-p quando a hipótese nula for verdadeira e diminuirá quando o nulo for falso. Essas são apenas tendências, no entanto, porque os valores de p são aleatórios. Em particular, há duas maneiras drasticamente diferentes de ler esta pergunta: uma diz respeito comportamentos de p-valores a priori e as outras preocupações prevendo alterações em valores de p depois de realizar uma regressão em um conjunto de dados em particular : em outras palavras, condicional em um dado valor p. Qual interpretação é a pretendida?

— whuber

@ whuber: por que você espera que os valores p aumentem quando o nulo é verdadeiro? Digamos, quando todas as suposições clássicas forem atendidas, os valores p construídos a partir da distribuição t me levariam a esperar valores p uniformes padrão para qualquer

n

$n$ ?

— Christoph Hanck

Respostas:

Para o teste T, temos regras como "Dobrar o tamanho da amostra aumenta a estatística do teste em $\sqrt{2}$ ". Isso pode fazer você pensar que existe uma relação simples entre tamanho da amostra e valor de p.

De fato, a relação entre o tamanho da amostra e o valor p depende da relação entre o tamanho da amostra e a estatística do teste, e a relação entre a estatística do teste e o valor p. Esses relacionamentos serão diferentes para cada teste.

Para o caso mais simples, o teste Z unilateral, podemos ver qual é essa relação. Suponha uma variável aleatória $X$ tem média $\mu$ e variação $\sigma^2$ . Suponha que estamos testando se a média de $X$ é significativamente diferente de $\nu$ . A estatística de teste $Z$ é $\frac{(\bar{x}-\nu)\sqrt{n}}{\sigma}$ .

O valor p é igual a um menos o CDF do $Z$ estatística (isso pressupõe que a diferença entre médias é positiva, um argumento semelhante funciona se a diferença for negativa).

Para a distribuição normal, o CDF é $\Phi(t)=0.5+0.5\cdot erf(\frac{x-\mu_t}{\sigma_t \sqrt{2}})$ . Onde erf (x) é a função de erro.

Sob a hipótese nula de igual significa o $Z$ estatística tem uma média $0$ e variação $1$ . A distribuição real de $Z$ tem uma média de $\frac{(\bar{x}-\nu)\sqrt{n}}{\sigma}$ e variação $1$ .

O tamanho do efeito da diferença entre as médias é $\frac{(\bar{x}-\nu)}{\sigma}$ . Chame o tamanho do efeito $b$ , então o valor esperado de $Z$ é $b\sqrt{n}$ .

Para $Z$ o CDF é $\Phi(z)=0.5+0.5\cdot erf(\frac{z}{\sqrt{2}})$ . Onde erf (x) é a função de erro.

Claro que o $Z$ estatística é uma variável aleatória, aqui vamos ver a relação entre o tamanho da amostra e o valor p para o valor esperado de $Z$ .

Daqui resulta que o CDF do $Z$ estatística é $\Phi(z)=0.5+0.5\cdot erf(\frac{b\sqrt{n}}{\sqrt{2}})$

Essa é a relação entre o valor de p e o tamanho da amostra

$p=0.5-0.5\cdot erf(\frac{b\sqrt{n}}{\sqrt{2}})$

O relacionamento varia de acordo com o valor de $n$ . Para muito grande $n$ podemos usar uma expansão em série para ver o comportamento limitador. De acordo com o wolfram alpha, isso é:

$\lim_{n \to \infty}p = e^{-0.5b^2n} \left(\frac{1}{eb\sqrt{n}}+O\left(\frac{1}{(b\sqrt{n})^2} \right) \right)$

Essa é uma decadência bastante rápida em direção a 0. Existe uma grande dependência do tamanho do efeito, é claro que se a diferença entre médias for maior, o valor de p diminuirá mais rapidamente à medida que a amostragem melhorar.

Novamente, lembre-se de que isso é apenas para o teste Z e T, não se aplica a outros testes.

— Hugh
fonte

Os princípios básicos nos informam que (1) os valores p são quantidades aleatórias ; (2) eles dependem do tamanho da amostra; mas (3) eles também dependem do estado real da natureza - isto é, não apenas se a hipótese nula é verdadeira ou falsa, mas também em que distribuição específica governa os resultados. Como sua resposta parece não reconhecer (1) ou (3), é difícil determinar quão informativas ou confiáveis são essas informações.

— whuber

@whuber Eu admito que minha notação é ruim, então é um pouco claro. Menciono (3), o estado da natureza é o tamanho do efeito da diferença entre as médias da população. Você está certo sobre (1), eu não tratei o valor p como uma variável aleatória, estava procurando por uma regra prática como "Dobrar o tamanho da amostra leva à estatística T aumentar em

\sqrt{2}

$\sqrt{2}$ .." Eu estava olhando para o efeito do tamanho da amostra sobre o p-valor esperado Boa coisa que você apontou para que eu possa esclarecer isso para futuros leitores.

— Hugh

@Hugh, a pergunta do OP, dizia respeito a testes de parâmetros dos modelos OLS, que estão diretamente conectados aos testes Z ou T ao considerar os testes baseados em Wald. No entanto, você pode dizer se os erros padrão dos coeficientes de regressão são diretamente proporcionais a um fator de

1 / \sqrt{n}

$1/\sqrt{n}$ como em outros testes Z ou T?

— AdamO 12/09

Vamos primeiro investigar o efeito no valor t . Podemos então inferir imediatamente o efeito no valor-p.

Talvez isso seja melhor ilustrado por um exemplo de simulação bem escolhido, que ilustra os recursos mais salientes. Desde que estamos olhando $H_0$ sendo falso (e estamos considerando essencialmente as propriedades relacionadas à energia), faz sentido focar em um teste de uma cauda (na direção "correta"), pois olhar para a cauda errada não verá muita ação e não dirá nós muito interesse.

Portanto, aqui temos uma situação (em n = 100) em que o efeito é grande o suficiente para que a estatística às vezes seja significativa. Em seguida, adicionamos à primeira amostra um segundo desenho da mesma distribuição contínua de valores x (aqui uniforme, mas não é crítico para o efeito observado) do mesmo tamanho que o primeiro, levando a uma duplicação do tamanho da amostra, mas inteiramente incluindo a primeira amostra.

O que observamos não é que o valor p diminua, apenas que ele diminua (mais pontos estão acima da linha diagonal do que abaixo dela); podemos ver que a variação nos valores t reduz, então há menos na região de 0. Muitos valores p aumentam. Muitas amostras que eram insignificantes se tornaram significativas quando adicionamos mais dados, mas algumas que foram significativas se tornaram insignificantes.

[Aqui, examinamos a estatística t para o coeficiente de inclinação em uma regressão simples, embora qualitativamente os problemas sejam semelhantes de maneira mais ampla.]

Um gráfico de valores-p em vez de valores-t transmite essencialmente a mesma informação. De fato, se você colocar as marcas nos intervalos corretos nos eixos acima, poderá rotulá-las com valores-p ... mas a parte superior (e a direita) mostrarão valores-p baixos e a parte inferior (/ esquerda) será rotulado com valores-p maiores. [Na verdade, plotar os valores-p esmaga tudo no canto e fica menos claro o que está acontecendo.]

— Glen_b -Reinstate Monica
fonte

Em geral, quando o respectivo nulo é falsa, esperar decaimento dos valores p como na figura abaixo, onde I relatório de p-valores médios a partir de pouco estudo de simulação para múltiplos de amostras de tamanho n=25variando bb*n=25da bb*n=29*25para um simples linear coeficiente de regressão igual para 0,1 e desvio padrão de erro de $\sigma_u=0.5$ .

Como os valores de p são delimitados de baixo por zero, o decaimento deve finalmente se achatar.

O intervalo de confiança de 90% (área sombreada em azul) indica que, além disso, a variabilidade dos valores de p também diminui com o tamanho da amostra.

Evidentemente, quando $\sigma_u$ é menor ou $n$ quanto maior, os valores-p serão próximos de zero mais rapidamente ao aumentar bb, para que a aparência do gráfico seja mais plana.

Código:

reps <- 5000
B <- seq(1,30,by=2)
n <- 25

sigma.u <- .5
pvalues <- matrix(NA,reps,length(B))
for (bb in 1:length(B)){
     for (i in 1:reps){
          x <- rnorm(B[bb]*n)
          y <- .1*x + rnorm(B[bb]*n,sd=sigma.u)
          pvalues[i,bb] <- summary(lm(y~x))$coefficients[2,4]     
     }
}
plot(B,colMeans(pvalues),type="l", lwd=2, col="purple", ylim=c(0,.9))
ConfidenceInterval <- apply(pvalues, 2, quantile, probs = c(.1,.9))
x.ax <- c(B,rev(B))
y.ax <- c(ConfidenceInterval[1,],rev(ConfidenceInterval[2,]))
polygon(x.ax,y.ax, col=alpha("blue",alpha = .2), border=NA)

— Christoph Hanck
fonte

Como um valor-p é uma quantidade aleatória, é importante explicar que o eixo vertical em seu gráfico exibe suas estimativas dos valores-p esperados em vez dos próprios valores-p. Em vista disso, mostrando a variação entre os valores de p para qualquer dado

B

$B$ seria um complemento essencial para sua análise.

— whuber

@whuber, foi o que tentei enfatizar escrevendo "expect", mas espero que seja um pouco mais explícito agora.

— Christoph Hanck

+1, mas o "achatamento" provavelmente desapareceria se você plotasse em log(p)vez de psi mesmo.

— Ameba

@amoeba: sim, executar o mesmo script para log-pvalues parece produzir uma linha reta.

— Christoph Hanck