O que aconteceu com a significância estatística na regressão quando o tamanho dos dados é gigantesco?


13

Eu estava lendo esta pergunta sobre regressão em larga escala ( link ), onde whuber apontou um ponto interessante da seguinte maneira:

"Quase qualquer teste estatístico que você executa será tão poderoso que é quase certo identificar um efeito" significativo ". Você precisa se concentrar muito mais na importância estatística, como tamanho do efeito, e não na significância".

--- whuber

Eu queria saber se isso é algo que pode ser provado ou simplesmente alguns fenômenos comuns na prática?

Qualquer ponteiro para uma prova / discussão / simulação seria realmente útil.


1
O tamanho do efeito é importante. (+1 à resposta de Glen_b). Para dar um exemplo rápido: se fôssemos obesos, não mudaríamos nossa dieta existente para uma nova e mais cara, se resultasse em perda de peso de 0,05 kg após um mês, mesmo que tivesse um valor de 0,0000000001 . Ainda seríamos obesos, apenas mais pobres. Pelo que sabemos, uma redução de peso tão pequena pode ser apenas devido à clínica de saúde que as gravações foram tiradas do chão de um prédio sem elevador para o quarto andar do mesmo prédio. (Boa pergunta + 1)p0.0000000001
usεr11852 diz Reinstate Monic

Respostas:


10

É bem geral.

Imagine que há um efeito pequeno, mas diferente de zero (ou seja, algum desvio do nulo que o teste é capaz de captar).

Em amostras pequenas, a chance de rejeição será muito próxima da taxa de erro do tipo I (o ruído domina o pequeno efeito).

À medida que o tamanho da amostra cresce, o efeito estimado deve convergir para esse efeito populacional, enquanto ao mesmo tempo a incerteza do efeito estimado diminui (normalmente como ), até que a chance de que a situação nula esteja próxima o suficiente do efeito estimado de que ainda seja plausível em uma amostra selecionada aleatoriamente da população, reduz-se a zero efetivamente.n

Ou seja, com nulos de ponto, eventualmente a rejeição se torna certa, porque em quase todas as situações reais, sempre haverá essencialmente algum desvio do nulo.


"... porque em quase todas as situações reais, sempre haverá sempre algum desvio do nulo". Então está lá e pode-se até vê-lo. Seria uma propriedade bastante agradável ou não?
Trilarion

"Nulo" aqui se refere à hipótese nula de que o coeficiente é igual a zero?
Arash Howaida 03/09/19

Penso que a resposta de Glen_b é geral e aplicável a qualquer teste de hipótese com um ponto nulo. No contexto da regressão, sim, o nulo é que o coeficiente é igual a zero. Minha própria embora compreensão ...
Bayesric

4

Isso não é uma prova, mas não é difícil mostrar a influência do tamanho da amostra na prática. Gostaria de usar um exemplo simples de Wilcox (2009) com pequenas alterações:

H0:μ50α=.05

Podemos usar o teste t para esta análise:

T=X¯μos/n

X¯s

T=455011/10=1.44.

tνv=101P(T1.83)=.05T=1.44

T=455011/100=4.55

v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Estatísticas Básicas: Compreendendo Métodos Convencionais e Insights Modernos . Oxford University Press, Oxford.


1
Obrigado pela resposta. Sua resposta fornece uma demonstração concreta da resposta de Glen_b: quando o tamanho da amostra é muito grande, um pequeno desvio do nulo (sempre existe um pequeno desvio na prática) será capturado como efeito significativo.
Bayesric

2

Em regressão, para o modelo geral, o teste está em F. Aqui

F=RSS1-RSS2p2-p1RSS2n-p2
Onde RSS é a soma residual dos quadrados ep é o número de parâmetros. Mas, para esta pergunta, a chave é o N no denominador mais baixo. Não importa o quão pertoRSS1 é RSS2, quando N fica maior, F fica maior. Portanto, basta aumentar N até que F seja significativo.

1
Obrigado pela resposta. No entanto, sou cético em relação a "quando N fica maior, F fica maior"; quando N aumenta, o RSS2 também aumenta, não está claro para mim por que F ficará maior.
Bayesric

@ Peter Flom isso não foi alcançado, mas você pode dar uma olhada aqui stats.stackexchange.com/questions/343518/…
user3022875:
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.