Como escolher o nível de significância para um grande conjunto de dados?

Estou trabalhando com um conjunto de dados com N em torno de 200.000. Nas regressões, estou vendo valores de significância muito pequenos << 0,001 associados a tamanhos de efeito muito pequenos, por exemplo, r = 0,028. O que eu gostaria de saber é: existe uma maneira baseada em princípios de decidir um limite de significância apropriado em relação ao tamanho da amostra? Existem outras considerações importantes sobre a interpretação do tamanho do efeito com uma amostra tão grande?

— ted.strauss
fonte

Esta é uma questão de significado prático versus estatístico. Se a inclinação for realmente diferente de 0, mesmo em uma quantidade minúscula, por exemplo ,00000000000000001), uma amostra grande o suficiente produzirá um valor

muito pequeno , apesar do resultado não ter significado prático. É melhor interpretar a estimativa de pontos em vez do valor-

quando você tem um tamanho de amostra tão grande.

p

$p$

p

$p$

— Macro

@ Macro desculpe, você pode esclarecer o que quer dizer com estimativa de pontos aqui?

— ted.strauss

Acrescentando ao comentário de Macro acima, nesta situação, procuro significância "prática" ou "clínica" nas descobertas. Para o que você está fazendo, o efeito é grande o suficiente para você se importar?

— 31512 Michelle

A estimativa pontual é a estimativa da inclinação de regressão observada.

— Macro

O que o @Macro e eu estamos dizendo é que você precisa decidir se o efeito clínico (estimativas pontuais, declives) é importante. Seu limiar baseia-se na decisão "sim, este é um efeito clínico importante" em vez de "um valor p significativo" porque a maioria (todos?) De seus valores p é significativa.

— Michelle

Respostas:

Em A insignificância do teste de significância , Johnson (1999) observou que os valores de p são arbitrários, na medida em que você pode torná-los tão pequenos quanto desejar reunindo dados suficientes, assumindo que a hipótese nula é falsa, o que quase sempre é. No mundo real, é improvável que haja correlações semi-parciais que sejam exatamente zero, que é a hipótese nula no teste de significância de um coeficiente de regressão. Os pontos de corte do valor-p são ainda mais arbitrários. O valor de 0,05 como ponto de corte entre significância e não-significância é usado por convenção, não por princípio. Portanto, a resposta para sua primeira pergunta é não, não há uma maneira de decidir por um limite de significância apropriado.

Então, o que você pode fazer, considerando seu grande conjunto de dados? Depende do (s) motivo (s) para explorar a significância estatística de seus coeficientes de regressão. Você está tentando modelar um sistema multifatorial complexo e desenvolver uma teoria útil que se encaixe ou preveja razoavelmente a realidade? Talvez você possa pensar em desenvolver um modelo mais elaborado e adotar uma perspectiva de modelagem, como descrito em Rodgers (2010), A Epistemologia da Modelagem Matemática e Estatística . Uma vantagem de ter muitos dados é poder explorar modelos muito ricos, com vários níveis e interações interessantes (supondo que você tenha as variáveis para fazê-lo).

Se, por outro lado, você quiser julgar se deve tratar um coeficiente em particular como estatisticamente significativo ou não, convém considerar a sugestão de Good (1982) como resumida em Woolley (2003) : Calcular o valor q como que padroniza os valores p para um tamanho de amostra de 100. Um valor p de exatamente 0,001 converte-se em um valor p de 0,045 - ainda estatisticamente significativo. $p\cdot\sqrt{(n/100)}$

Então, se é significativo usar um limite arbitrário ou outro, e daí? Se este é um estudo observacional, você tem muito mais trabalho para justificar que é realmente significativo da maneira que pensa e não apenas um relacionamento falso que aparece porque você especificou incorretamente o seu modelo. Observe que um efeito pequeno não é tão clinicamente interessante se representar diferenças pré-existentes entre as pessoas que selecionam níveis diferentes de tratamento, em vez de um efeito de tratamento.

Você precisa considerar se o relacionamento que está vendo é praticamente significativo, como observaram os comentaristas. Converter os números que você cita de para para a variação explicada ( é correlação, quadrado para obter variação explicada) fornece apenas 3 e 6% de variação explicada, respectivamente, o que não parece muito. $r$ $r^2$ $r$

— Anne Z.
fonte

@ rolando2 obrigado pela edição, sempre ficando confuso entre valores grandes / pequenos de p! Eu acho que se estiver do lado direito da distribuição é grande, mas o valor-p é pequeno.

— Anne Z.

(+1) Este é um fato importante sobre o qual muitos profissionais não pensam com cuidado: "os valores-p são arbitrários, pois você pode torná-los tão pequenos quanto deseja reunindo dados suficientes, assumindo que a hipótese nula é falsa, o que quase sempre é ".

— Macro

Obrigado! Os pontos em seu penúltimo parágrafo são bem tomados. Estou lendo o artigo Woolley e notei que sua fórmula de valor q está desativada. Deve ser p * não p / - tentei alterá-lo aqui, mas as edições devem ter> 6 caracteres.

— ted.strauss

@ ted.strauss Fico feliz que seja útil. Às vezes, sinto-me desencorajado pelas limitações das ferramentas, como valores-p, com os quais temos que trabalhar. Obrigado por observar o erro na fórmula, eu o corrigi.

— Anne Z.

Obrigado pela resposta maravilhosa. Mas não consigo acessar o artigo Woolley 2003 usando o link fornecido acima.

— KarthikS

-3

Eu acho que uma maneira fácil de verificar seria amostrar aleatoriamente um número igualmente grande do que você sabe que é uma distribuição duas vezes e comparar os dois resultados. Se você fizer isso várias vezes e observar valores-p semelhantes, isso sugere que não há efeito real. Se, por outro lado, você não tiver, então provavelmente existe.

— Lars Kotthoff
fonte

p

$p$

< .001

$<.001$

p

$p$ será tão pequena quanto a que o pôster original observou. Isso vale para qualquer tamanho de amostra. Esta é a definição de um

p

$p$ -valor.

— Macro

De fato, o

p

$p$ valores que sairão do processo que você descreveu terão um

U n i f o r m (0, 1)

${\rm Uniform}(0,1)$ distribution.

— Macro

In relation to the last comment by @Macro, here is a sketch of the proof that, under the null hypothesis

H_{0}

$H_0$ , the

p

$p$ -value has

U [0, 1]

$U[0,1]$ distribution. Given a test statistic

T = T (X)

$T=T(X)$ , if we observe

t = t (x)

$t=t(x)$ , the

p

$p$ -value is defined as

p (t) = P (T \geq t ∣ H_{0})

$p(t)=\mathbb{P}(T\geq t\mid H_0)$ . Suppose that under

H_{0}

$H_0$ the distribution function of

T

$T$ is

G_{0}

$G_0$ , with

G_{0}

$G_0$ continuous and nondecreasing, so that it has inverse

G_{0}^{- 1}

$G_0^{-1}$ . Then, we have

p (t) = 1 - G_{0} (t)

$p(t)=1-G_0(t)$ , and, for

u \in [0, 1]

$u\in[0,1]$

— Zen

(continuation of Zen's comment):

P (p (T) \leq u) = P (1 - G_{0} (T) \leq u) = P (G_{0} (T) \geq 1 - u) = P (T \geq G_{0}^{- 1} (1 - u)) = 1 - G_{0} (G_{0}^{- 1} (1 - u)) = u .

$\mathbb{P}(p(T)\leq u) = \mathbb{P}(1-G_0(T)\leq u) = \mathbb{P}(G_0(T)\geq 1-u) = \mathbb{P}(T\geq G_0^{-1}(1-u)) = 1-G_0(G_0^{-1}(1-u))=u \, .$ Hence, we conclude that

p (T) ∣ H_{0} \sim U [0, 1]

$p(T)\mid H_0\sim U[0,1]$ .

— whuber