Interpretação do valor-p no teste de hipóteses

Recentemente, deparei com o artigo "A Insignificância do Teste de Significância de Hipótese Nula", Jeff Gill (1999) . O autor levantou algumas concepções errôneas comuns sobre testes de hipóteses e valores de p, sobre os quais tenho duas perguntas específicas:

O valor p é tecnicamente , que, como apontado pelo artigo, geralmente não nos diz nada sobre , a menos que conheçamos as distribuições marginais, o que raramente acontece no teste de hipóteses "cotidiano". Quando obtemos um pequeno valor p e "rejeitamos a hipótese nula", qual é exatamente a afirmação probabilística que estamos fazendo, pois não podemos dizer nada sobre ? $P({\rm observation}|H_{0})$ $P(H_{0}|{\rm observation})$ $P(H_{0}|{\rm observation})$
A segunda pergunta refere-se a uma declaração específica da página 6 (652) do artigo:

Como o valor-p, ou intervalo de valores-p indicado por estrelas, não é definido a priori, não é a probabilidade a longo prazo de cometer um erro do tipo I, mas normalmente é tratado como tal.

Alguém pode ajudar a explicar o que significa essa declaração?

hypothesis-testing p-value

— - Reinstate Monica
fonte

TY para a referência ao artigo #

— Ludovic Kuty

@ezbentley: talvez seja interessante dar uma olhada na minha resposta: stats.stackexchange.com/questions/166323/…

Respostas:

(Tecnicamente, o valor P é a probabilidade de observar dados pelo menos tão extremos quanto os realmente observados, dada a hipótese nula.)

Q1 Uma decisão de rejeitar a hipótese nula com base em um pequeno valor P normalmente depende da 'disjunção de Fisher': um evento raro ocorreu ou a hipótese nula é falsa. Com efeito, é raridade do evento o que o valor P diz, e não a probabilidade de que o nulo seja falso.

A probabilidade de que o nulo seja falso pode ser obtida a partir dos dados experimentais apenas pelo teorema de Bayes, que exige a especificação da probabilidade 'anterior' da hipótese nula (presumivelmente o que Gill se refere como "distribuições marginais").

Q2 Esta parte da sua pergunta é muito mais difícil do que parece. Há muita confusão em relação aos valores P e taxas de erro, que é, presumivelmente, o que Gill está se referindo com ", mas geralmente é tratado como tal". A combinação dos valores P dos pescadores com as taxas de erro de Neyman-Pearsonian foi denominada uma confusão incoerente e, infelizmente, é muito difundida. Nenhuma resposta curta será completamente adequada aqui, mas posso apontar alguns bons trabalhos (sim, um é meu). Ambos o ajudarão a entender o artigo da Gill.

Hurlbert, S. & Lombardi, C. (2009). Colapso final do referencial teórico de decisão de Neyman-Pearson e ascensão do neo-pescador. Annales Zoologici Fennici, 46 (5), 311-349. (Link para o artigo)

Lew, MJ (2012). Má prática estatística em farmacologia (e outras disciplinas biomédicas básicas): você provavelmente não conhece P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (link para artigo)

— Michael Lew
fonte

Obrigado pelo esclarecimento. É tecnicamente incorreto fazer uma declaração como "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? A fonte da confusão parece ser que nenhuma alegação probabilística real está sendo feita para a hipótese nula quando dizemos que o nulo é "rejeitado".

@ezbentley, isso realmente depende do que você quer dizer com significante. Essa palavra não é realmente muito significativa na maioria dos contextos, porque foi contaminada pelo híbrido Fisher-Neyman-Pearson. Se você obteve um valor P muito pequeno, é justo dizer que a média verdadeira provavelmente não é zero, mas é importante dizer qual foi a média observada e indicar sua variabilidade (SEM ou intervalo de confiança) e não ' não esqueça de dizer qual era o tamanho da amostra. Um valor P não substitui a especificação do tamanho do efeito observado.

— Michael Lew

Obrigado pela explicação. Preciso me aprofundar no paradigma Fisher e Neyman-Pearson.

@ Michael Lew: Talvez possa ser interessante dar uma olhada na minha resposta: stats.stackexchange.com/questions/166323/…

Seu parágrafo no primeiro trimestre é provavelmente a melhor explicação para o problema que vi até agora. Obrigado.

— precisa saber é o seguinte

+1 para @MichaelLew, que forneceu uma boa resposta. Talvez eu ainda possa contribuir, fornecendo uma maneira de pensar sobre o Q2. Considere a seguinte situação:

A hipótese nula é verdadeira. (Observe que, se a hipótese nula não for verdadeira, nenhum erro do tipo I será possível e não está claro qual o significado do valor- .) $p$
$\alpha$ foi definido convencionalmente em . $0.05$
O valor calculado é . $p$ $0.01$

$p$ $p$ $0.02$ $p$ $0.04\bar{9}$ $p$ $\approx$ $\alpha$

$p$

— - Reinstate Monica
fonte

Trabalhando em um campo (epi) em que muitas vezes é extremamente difícil acreditar que a hipótese H_0 = 0 é realmente verdadeira, acho que esse ponto é esquecido e merece muito mais atenção.

— Boscovich

α

$\alpha$

+1, mas a sugestão de que o significado de um valor P não é clara quando o nulo é falso é enganosa. Quanto menor o valor P, maior a discrepância entre o nulo e o observado. Quanto maior o tamanho da amostra, mais próximo se pode supor que o tamanho real do efeito é o tamanho observado. É muito útil notar que o teste de significância é análogo à estimativa.

— Michael Lew

@ MichaelLew, não tenho certeza de que o valor p signifique essas coisas por conta própria. Em conjunto w / N (e especificamente, mantendo N constante), um p menor corresponderá a uma discrepância maior b / t a nula e observada. Mesmo assim, isso é mais algo que pode ser inferido de p do que algo que p significa . Também é verdade que os tamanhos de efeito observado com N maiores devem estar mais próximos dos ES verdadeiros, mas é menos claro para mim qual o papel que p desempenha lá. EG, com um falso nulo, o efeito verdadeiro ainda pode ser muito pequeno, e com um grande N, esperamos que o ES observado esteja próximo, mas p ainda pode ser grande.

— gung - Restabelece Monica

...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"

α

$\alpha$

Eu gostaria de fazer um comentário relacionado à "insignificância do teste de significância de hipótese nula", mas que não responde à pergunta do OP.

$p$ $H_0$ $H_0\colon\{\theta=0\}$ $\theta=\epsilon$ $\epsilon$ $\epsilon$ $0$ $\epsilon$ $0$

— Stéphane Laurent
fonte

+1 Sim, o verdadeiro problema do teste de hipóteses convencional é que ele responde a uma pergunta que você não está realmente interessado em ter respondido, ou seja, "existe evidência significativa de uma diferença?", Em vez de "existe evidência de uma diferença significativa? " É claro que o que realmente é desejado é geralmente "qual é a probabilidade de que minha hipótese de pesquisa seja verdadeira?", Mas isso não pode ser respondido dentro de uma estrutura freqüentista. A má interpretação geralmente surge de tentativas de tratar o teste freqüentista em termos bayesianos.

— Dikran Marsupial

Não é uma boa ideia separar o significado dos valores P e tamanho da amostra. Um valor P menor indica um tamanho de efeito maior em qualquer tamanho de amostra específico e, para qualquer valor P específico, um tamanho de amostra maior indica que o tamanho real do efeito provavelmente está mais próximo do tamanho do efeito observado. Testes de significância devem ser pensados no contexto da estimativa, não erros. Uma amostra maior sempre fornece mais informações - como interpretá-la depende do pesquisador. A grande amostra de queixa de efeito insignificante é apenas um problema para o teste de hipótese de Neyman-Pearson.

— Michael Lew