Um intervalo de confiança estreito em torno de um efeito não significativo fornece evidência para o nulo?

9

É obviamente falacioso supor que a falha em rejeitar o nulo implica que o nulo é verdadeiro. Mas, em um caso em que o nulo não é rejeitado e o intervalo de confiança correspondente (IC) é estreito e centrado em torno de 0, isso não fornece evidência para o nulo?

Eu tenho duas idéias: Sim, na prática, isso forneceria evidências de que o efeito é mais ou menos 0. No entanto, em uma estrutura estrita de teste de hipóteses, parece que efeitos nulos são simplesmente inutilizáveis para inferência, assim como seus ICs correspondentes. Então, qual é o significado de um IC quando sua estimativa pontual não é significativa? Também é inutilizável para inferência ou pode ser usado como no exemplo anterior para quantificar evidências para o nulo?

Respostas com referências acadêmicas são encorajadas.

hypothesis-testing statistical-significance confidence-interval

— ATJ
fonte

Você provavelmente estará interessado em testes de equivalência e perguntas no site que o detalha. Consulte Como testar hipóteses de nenhuma diferença de grupo? por um exemplo.

— 187 Andy W

11

Se você quer dizer evidência de um ponto nulo contra a alternativa de qualquer outra coisa ... então, não. O número incontável e infinito de alternativas entre o valor muito pequeno observado e o nulo ainda será mais provável que o nulo. Se você quer dizer outra coisa, talvez em algumas circunstâncias.

— Glen_b -Reinstala Monica

Sim, então seria uma questão de testes equivalentes, um termo que eu ainda não tinha ouvido falar.

— ATJ 06/04

6

Em resumo: sim.

Como Andy W escreveu, concluindo que o parâmetro é igual a um valor especificado (no seu caso, o tamanho do efeito é igual a zero), é uma questão de teste de equivalência.

No seu caso, esse estreito intervalo de confiança pode de fato indicar que o efeito é praticamente zero, ou seja, a hipótese nula da equivalência pode ser rejeitada. A equivalência significativa no nível é normalmente mostrada por um intervalo de confiança comum que fica completamente dentro de um intervalo de equivalência pré-especificado. Esse intervalo de equivalência leva em consideração que você pode negligenciar desvios realmente minúsculos, ou seja, todos os tamanhos de efeito dentro desse intervalo de equivalência podem ser considerados praticamente equivalentes. (Teste estatístico de igualdade não é possível.) $1-\alpha$ $1-2\alpha$

Consulte "Testando hipóteses estatísticas de equivalência e não inferioridade" de Stefan Wellek para ler mais, o livro mais abrangente sobre esse assunto.

— Horst Grünbusch
fonte

2

Hipóteses nulas exemplificam o significado de "Todos os modelos estão errados, mas alguns são úteis". São provavelmente mais úteis se não forem tomadas literalmente e fora de contexto - ou seja, é importante lembrar o objetivo epistêmico do nulo. Se puder ser falsificado, que é o objetivo pretendido, a alternativa se tornará mais útil por comparação, embora ainda pouco informativa. Se você rejeitar o nulo, estará dizendo que o efeito provavelmente não é zero (ou seja o que for - hipóteses nulas também podem especificar outros valores para falsificação) ... então o que é então?

O tamanho do efeito que você calcula é sua melhor estimativa de ponto do parâmetro populacional. Geralmente, as chances devem ser igualmente boas de que seja superestimada ou subestimada, mas as chances de ser um ponto de parada são infinitesimais, como o comentário de @ Glen_b implica. Se por alguma reviravolta bizarra do destino (ou por construção - de qualquer maneira, suponho que estamos falando hipoteticamente?) Sua estimativa cai diretamente em , ainda não há muita evidência de que o parâmetro não seja um valor diferente dentro o intervalo de confiança. O significado do intervalo de confiança não muda com base na significância de qualquer teste de hipótese, exceto na medida em que pode alterar a localização e a largura de maneira relacionada. $0.\bar 0$

Caso você não esteja familiarizado com a aparência das estimativas de tamanho de efeito para amostras de uma população (simulada) cuja hipótese nula é literalmente verdadeira (ou caso você ainda não a tenha visto e esteja aqui apenas para um pouco de entretenimento estatístico) ), confira Dança dos valores $p$ Geoff Cumming . Caso esses intervalos de confiança não sejam estreitos o suficiente para o seu gosto, tentei simular alguns em R usando amostras geradas aleatoriamente com apenas cada de . Eu esqueci de colocar uma semente, mas coloquei e depois corri quantas vezes quisesse antes de terminar esta resposta, o que me deu 6000 amostras no final. Aqui está um histograma e um gráfico de densidade usando e $n=1\rm M$ $\mathcal N(0,1)$ x=c()x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))hist(x,n=length(x)/100)plot(density(x)), respectivamente:

$\ \ \ \$

Como seria de esperar, existem evidências de uma variedade de efeitos diferentes de zero resultantes dessas amostras aleatórias de uma população com efeito literalmente zero, e essas estimativas são distribuídas mais ou menos normalmente em torno do parâmetro true ( skew(x)= -.005, kurtosis(x)= 2.85). Imagine que você só conheceu o valor da sua estimativa a partir de uma amostra de , e não o parâmetro verdadeiro: por que você esperaria que o parâmetro estivesse mais próximo de zero do que a sua estimativa e não mais? Seu intervalo de confiança pode incluir o nulo, mas o nulo não é realmente mais plausível que o valor da distância equivalente ao tamanho do efeito de amostra na direção oposta, e outros valores podem ser mais plausíveis que isso, especialmente sua estimativa de pontos! $n=1\rm M$

Se, na prática, você deseja demonstrar que um efeito é mais ou menos zero, precisa definir quanto mais ou menos você está inclinado a ignorar. Com essas enormes amostras que simulei, a estimativa da maior magnitude que gerei foi . Com amostras mais realistas de , a maior que encontro entre as amostras de é . Novamente, os resíduos são normalmente distribuídos, portanto são improváveis, mas o ponto é que eles não são implausíveis. $|r|=.004$ $n=999$ $1\rm M$ $|r|=.14$

Um IC é provavelmente mais útil para inferência do que um NHST em geral. Ele não representa apenas o quão ruim pode ser a idéia de assumir que o parâmetro é insignificante; representa uma boa idéia do que realmente é o parâmetro. Ainda se pode decidir se isso é insignificante, mas também é possível ter uma noção de quão insignificante pode ser. Para defesa adicional de intervalos de confiança, consulte Cumming ⁽²⁰¹⁴^{, 2013)} .

_{Referências

- Cumming, G. (2013). Entendendo as novas estatísticas: tamanhos de efeito, intervalos de confiança e metanálise . Routledge.

- Cumming, G. (2014). As novas estatísticas: por que e como. Psychological Science, 25 (7), 7–29. Recuperado em http://pss.sagepub.com/content/25/1/7.full.pdf+html .}

— Nick Stauner
fonte

Obrigado, estou muito familiarizado com o trabalho de Cumming. Suponho que minha pergunta tenha sido mais parecida com: "se a estimativa ES ES não for significativa, os ICs poderão ser usados para inferência? (Ou são 'nulos', isto é, inúteis como estimativa pontual)"

— ATJ

11

@ATJ: Nem a estimativa pontual nem os intervalos de confiança ( ) para um parâmetro se tornam "inúteis" quando não são significativamente diferentes de zero (no nível ) ou contendo zero, respectivamente.

1 - α

$1-\alpha$

α

$\alpha$

— Scortchi - Reinstate Monica

@ATJ: Como eu disse, o significado [/ utilidade] de um IC não muda com base no significado de qualquer NHST. Um IC é provavelmente mais útil para inferência do que um NHST em geral ... representa uma boa idéia do que realmente é o parâmetro. Por exemplo, acabei de executar cor.test(rnorm(9999999),rnorm(9999999))e obtive um IC de . Portanto, deduzo que, quando executá-lo novamente, tenho 95% de probabilidade de obter uma nova estimativa dentro desse intervalo. Executando novamente, minha estimativa foi ; minha inferência baseada em IC estava certa! O nulo passa a ser pela construção, mas minha prova favoreceria minha estimativa em vez ...

{- 0.00063, 0.00060}

$\{-0.00063,0.00060\}$

r = 0.00029

$r=0.00029$

— Nick Stauner