Os valores p menores são mais convincentes?

31

Estive lendo sobre valores- , taxas de erro tipo 1, níveis de significância, cálculos de potência, tamanhos de efeito e o debate Fisher vs Neyman-Pearson. Isso me deixou um pouco sobrecarregado. Peço desculpas pelo muro de texto, mas senti que era necessário fornecer uma visão geral do meu entendimento atual desses conceitos, antes de passar para minhas perguntas reais. $p$

Pelo que pude reunir, um valor- é simplesmente uma medida de surpresa, a probabilidade de obter um resultado pelo menos tão extremo, dado que a hipótese nula é verdadeira. Fisher originalmente pretendia que fosse uma medida contínua. $p$

Na estrutura de Neyman-Pearson, você seleciona um nível de significância antecipadamente e o usa como um ponto de corte (arbitrário). O nível de significância é igual à taxa de erro do tipo 1. É definido pela frequência de longo prazo, ou seja, se você repetir um experimento 1000 vezes e a hipótese nula for verdadeira, cerca de 50 desses experimentos resultariam em um efeito significativo , devido à variabilidade da amostra. Ao escolher um nível de significância, estamos nos protegendo contra esses falsos positivos com uma certa probabilidade. valores tradicionalmente não aparecem nessa estrutura. $P$

Se encontrarmos um valor de 0,01, isso não significa que a taxa de erro do tipo 1 seja 0,01, o erro do tipo 1 será declarado a priori. Acredito que este seja um dos principais argumentos no debate Fisher vs NP, porque os valores de são frequentemente relatados como 0,05 *, 0,01 **, 0,001 ***. Isso pode induzir as pessoas a dizerem que o efeito é significativo em um determinado valor , em vez de em um determinado valor de significância. $p$ $p$ $p$

Também percebo que o valor- é uma função do tamanho da amostra. Portanto, não pode ser usado como uma medida absoluta. Um pequeno valor poderia apontar para um efeito pequeno e não relevante em um experimento de amostra grande. Para combater isso, é importante executar um cálculo de tamanho de poder / efeito ao determinar o tamanho da amostra para sua experiência. valores nos dizem se existe um efeito, não qual o seu tamanho. Veja Sullivan 2012 . $p$ $p$ $P$

Minha pergunta: como posso reconciliar os fatos de que o valor- é uma medida de surpresa (menor = mais convincente) e, ao mesmo tempo, não pode ser visto como uma medida absoluta? $p$

O que me deixa confuso é o seguinte: podemos ter mais confiança em um pequeno valor que em um grande? No sentido da pesca, eu diria que sim, estamos mais surpresos. Na estrutura do PN, escolher um nível de significância menor implicaria que estamos nos protegendo mais fortemente contra falsos positivos. $p$

Por outro lado, os valores de dependem do tamanho da amostra. Eles não são uma medida absoluta. Portanto, não podemos simplesmente dizer que 0,001593 é mais significativo que 0,0439. No entanto, é isso o que estaria implícito na estrutura de Fisher: ficaríamos mais surpresos com um valor tão extremo. Há até discussões sobre o termo altamente significativo ser um termo impróprio: É errado referir-se a resultados como "altamente significativos"? $p$

Ouvi dizer que os valores de em alguns campos da ciência são considerados importantes apenas quando menores que 0,0001, enquanto em outros campos valores em torno de 0,01 já são considerados altamente significativos. $p$

Perguntas relacionadas:

— Zenit
fonte

Além disso, não esqueça que um valor p "significativo" não diz nada sobre sua teoria. Isso é até admitido pelos defensores mais fervorosos: Exato de significância estatística: justificativa, validade e utilidade. Siu L. Chow. CIÊNCIAS COMPORTAMENTAIS E CEREBRAIS (1998) 21, 169–239 Os dados são interpretados quando são transformados em evidência. As suposições em que uma interpretação se baseia precisam ser enumeradas e, se possível, verificadas. O que está sendo medido?

— Lívio

2

+1, mas recomendamos que você concentre a pergunta e remova as perguntas secundárias. Se você estiver interessado em saber por que algumas pessoas argumentam que os intervalos de confiança são melhores que os valores-p, faça uma pergunta separada (mas verifique se isso não foi feito antes).

— Ameba diz Reinstate Monica

3

Além disso, como sua pergunta não é uma duplicata de Por que valores de p mais baixos não são mais evidências contra o nulo? Você viu esse tópico? Talvez você possa adicioná-lo à lista no final de sua postagem. Veja também uma pergunta semelhante Que sentido faz comparar valores-p entre si? , mas reluto em recomendar esse tópico, porque a resposta aceita é IMHO incorreta / enganosa (consulte a discussão nos comentários).

— Ameba diz Reinstate Monica

2

Gelman tem muita relevância a dizer sobre valores-p. eg 1. aqui (Gelman e Stern, Am.Stat. 2006 pdf) , 2. aqui em seu blog , 3. seu blog novamente e talvez também 4. aqui (Gelman, 2013 publicou comentário em outro artigo, pdf)

— Glen_b - Restabelecer Monica

2

Obrigado pelos links, @Glen_b; Conheço bem o artigo Gelman & Stern e frequentemente me refiro a ele, mas nunca vi este artigo de 2013 ou sua discussão antes. No entanto, gostaria de alertar o OP sobre a interpretação de Gelman & Stern no contexto de sua pergunta. G&S oferece um bom exemplo com dois estudos estimando um efeito como e ; em um caso , em outro , mas a diferença entre as estimativas não é significativa. É importante ter isso em mente, mas se agora, após o OP, perguntamos se o primeiro estudo é mais convincente, eu certamente diria que sim.

25 \pm 10

$25\pm 10$

10 \pm 10

$10\pm 10$

p < 0.01

$p<0.01$

p > 0.05

$p>0.05$

— Ameba diz Reinstate Monica

18

Os valores menores são "mais convincentes"? Sim, claro que são. $p$

Na estrutura de Fisher, o valor é uma quantificação da quantidade de evidência em relação à hipótese nula. A evidência pode ser mais ou menos convincente; quanto menor o valor , mais convincente é. Observe que em qualquer experimento com tamanho fixo de amostra , o valor- é monotonicamente relacionado ao tamanho do efeito, como @Scortchi bem indica em sua resposta (+1). Portanto, valores menores correspondem a tamanhos de efeito maiores; é claro que eles são mais convincentes! $p$ $p$ $n$ $p$ $p$

Na estrutura de Neyman-Pearson, o objetivo é obter uma decisão binária: a evidência é "significativa" ou não. Ao escolher o limite , garantimos que não teremos mais que falsos positivos. Observe que pessoas diferentes podem ter diferentes em mente ao olhar para os mesmos dados; talvez quando eu leio um artigo de um campo sobre o qual sou cético, eu pessoalmente não consideraria resultados "significativos" com, . Meu pessoal pode estar definido como ou algo assim. Obviamente, quanto menor o relatado $\alpha$ $\alpha$ $\alpha$ $p=0.03$ $\alpha$ $0.001$ $p$ -valor, os leitores mais céticos serão capazes de convencer! Portanto, novamente, os valores mais baixos são mais convincentes. $p$

A prática padrão atualmente é combinar as abordagens de Fisher e Neyman-Pearson: se , os resultados serão chamados "significativos" e o valor- é [exatamente ou aproximadamente] relatado e usado como uma medida de convencimento (marcando com estrelas, usando expressões como "altamente significativas" etc.); se , os resultados serão chamados "não significativos" e é isso. $p<\alpha$ $p$ $p>\alpha$

Isso geralmente é chamado de "abordagem híbrida" e, na verdade, é híbrido. Algumas pessoas argumentam que esse híbrido é incoerente; Eu costumo discordar. Por que seria inválido fazer duas coisas válidas ao mesmo tempo?

Leitura adicional:

O "híbrido" entre as abordagens de Fisher e Neyman-Pearson para testes estatísticos é realmente uma "confusão incoerente"? - minha pergunta sobre o "híbrido". Isso gerou alguma discussão, mas ainda não estou satisfeito com nenhuma das respostas e pretendo voltar a esse tópico em algum momento.
É errado referir-se aos resultados como sendo "altamente significativos"? - veja a resposta de ontem, que está essencialmente dizendo: não está errado (mas talvez um pouco desleixado).
Por que os valores p mais baixos não são mais evidências contra o nulo? Argumentos de Johansson 2011 - um exemplo de um artigo anti-Fisher argumentando que os valores de não fornecem evidências contra o nulo; a resposta principal do @Momo faz um bom trabalho ao desmistificar os argumentos. Minha resposta para a pergunta do título é: Mas é claro que são. $p$

— ameba diz Restabelecer Monica
fonte

1

(+1) Mas veja a Seção 4.4 do artigo de Michael Lew: alguns preferem equiparar a quantidade de evidência à probabilidade do que ao valor-p, o que faz diferença quando valores-p de experimentos com diferentes espaços de amostragem estão sendo comparados. Então eles falam de "indexar" ou "calibrar" a evidência / probabilidade.

— Scortchi - Restabelece Monica

Desculpe, eu quis dizer, mais precisamente, que, nessa visão, a "evidência" relativa (ou "suporte") para diferentes valores que um parâmetro pode assumir é a proporção de suas funções de probabilidade avaliadas para os dados observados. Assim, no exemplo de Lew, uma cabeça em seis jogadas é a mesma evidência contra a hipótese nula, independentemente de o esquema de amostragem ser binomial ou binomial negativo; no entanto, os valores p diferem - você pode dizer que, sob um esquema de amostragem, é menos provável que você acumule tantas evidências contra o nulo. (É claro que os direitos da palavra "evidência", como "significante", ...

— Scortchi - Restabelecem Monica

... ainda não foi firmemente estabelecido.)

— Scortchi - Restabelece Monica

Hmmm, muito obrigado por chamar minha atenção para esta seção; Eu li isso antes, mas aparentemente perdi sua importância. Devo dizer que no momento estou confuso com isso. Lew escreve que os valores-p não devem ser "ajustados" levando em consideração as regras de parada; mas não vejo nenhum ajuste nas fórmulas 5-6. Quais seriam os valores de p "não ajustados"?

— Ameba diz Reinstate Monica

1

@ Scortchi: Hmmm. Realmente não entendo por que um desses valores-p é "ajustado" e outro não; por que não vice-versa? Não estou absolutamente convencido pelo argumento de Lew aqui, e nem o entendo completamente. Pensando nisso, encontrei a pergunta de Lew de 2012 sobre o princípio da probabilidade e os valores-p e publiquei uma resposta lá. O ponto é que não é necessário regras de parada diferentes para obter valores-p diferentes; pode-se simplesmente considerar diferentes estatísticas de teste. Talvez possamos continuar discutindo lá, agradeceria sua opinião.

— Ameba diz Reinstate Monica

9

Não sei o que significam valores menores de p serem "melhores" ou estarmos "mais confiantes" neles. Mas considerar os valores de p como uma medida de quão surpresos deveríamos estar com os dados, se acreditarmos na hipótese nula, parece bastante razoável; o valor p é uma função monotônica da estatística de teste que você escolheupara medir discrepância com a hipótese nula na direção em que você está interessado, calibrando-a em relação às suas propriedades sob um procedimento relevante de amostragem de uma população ou atribuição aleatória de tratamentos experimentais. "Significância" tornou-se um termo técnico para se referir aos valores de p estarem acima ou abaixo de algum valor especificado; assim, mesmo aqueles que não têm interesse em especificar níveis de significância e aceitar ou rejeitar hipóteses tendem a evitar frases como "altamente significativo" - mera adesão à convenção.

Em relação à dependência dos valores-p no tamanho da amostra e no tamanho do efeito, talvez surja alguma confusão, porque, por exemplo, pode parecer que 474 cabeças de 1.000 jogadas sejam menos surpreendentes do que 2 em 10 para alguém que acha que a moeda é justa - afinal de contas a proporção da amostra apenas se desvia um pouco de 50% no caso anterior - mas os valores de p são praticamente os mesmos. Mas verdadeiro ou falso não admite graus; o valor-p está fazendo o que é solicitado: geralmente os intervalos de confiança para um parâmetro são realmente o que se deseja avaliar com que precisão um efeito foi medido e a importância prática ou teórica de sua magnitude estimada.

— Scortchi - Restabelecer Monica
fonte

1

+1. Penso no que a pergunta estava sendo abordada: os valores p menores são mais convincentes - é assim que entendo "melhor" no título (em geral, a pergunta seria muito benéfica se o OP tentasse focalizá-la)? Se ou , talvez se chamar os resultados de "significativos" em ambos os casos, mas serão mais convincentes no último caso? A prática de colocar "estrelas" perto dos valores-p assume que elas são; são eles? (Isso é essencialmente perguntar sobre o "híbrido" frequentemente criticado entre Fisher e Neyman-Pearson; pessoalmente, eu não tenho problemas com isso.)

p = 0.04

$p=0.04$

p = 0.000004

$p=0.000004$

— ameba diz Reinstate Monica

1

Obrigado pelos comentários e sugestões de leituras. Tive mais tempo para refletir sobre esse problema e acredito que consegui isolar minhas principais fontes de confusão.

Inicialmente, pensei que havia uma dicotomia entre ver o valor-p como uma medida de surpresa versus afirmar que não é uma medida absoluta. Agora percebo que essas afirmações não necessariamente se contradizem. O primeiro permite-nos estar mais ou menos confiantes na extremidade (até mesmo antipatia?) De um efeito observado, em comparação com outros resultados hipotéticos do mesmo experimento. Enquanto o último apenas nos diz que o que pode ser considerado um valor p convincente em um experimento, pode não ser impressionante em outro, por exemplo, se o tamanho da amostra diferir.
O fato de alguns campos da ciência utilizarem uma linha de base diferente de valores-p fortes pode ser um reflexo da diferença nos tamanhos de amostra comuns (astronomia, experimentos clínicos, psicológicos) e / ou uma tentativa de transmitir o tamanho do efeito em um p- valor. Mas o último é uma fusão incorreta dos dois.
A importância é uma pergunta de sim / não com base no alfa escolhido antes do experimento. Um valor p não pode, portanto, ser mais significativo que outro, pois é menor ou maior que o nível de significância escolhido. Por outro lado, um valor p menor será mais convincente do que um valor maior (para um tamanho de amostra semelhante / experimento idêntico, como mencionado no meu primeiro ponto).
Intervalos de confiança transmitem inerentemente o tamanho do efeito, tornando-os uma boa opção para se proteger contra os problemas mencionados acima.

— Zenit
fonte

0

O valor p não pode ser uma medida de surpresa, porque é apenas uma medida de probabilidade quando o nulo é verdadeiro. Se o nulo for verdadeiro, cada valor possível de p é igualmente provável. Não se pode surpreender nenhum valor-p antes de decidir rejeitar o nulo. Depois que se decide que há um efeito, o significado do valor-p desaparece. Apenas o relata como um elo de uma cadeia indutiva relativamente fraca para justificar a rejeição, ou não, do nulo. Mas se foi rejeitado, na verdade não tem mais sentido.

— John
fonte

+1 para o fato ", quando o nulo é verdade, então cada p-valor é igualmente provável '' no entanto, eu acho que isso vale somente para variáveis aleatórias contínuas?

Note que eu disse, todo valor "possível" de p é igualmente provável. Portanto, isso é verdade para variáveis discretas ou contínuas. Com variáveis discretas, o número de valores possíveis é menor.

— John

você tem certeza de que a distribuição dos valores-p (em ) é sempre uniforme para variáveis discretas porque este link parece dizer algo diferente: stats.stackexchange.com/questions/153249/…

H_{0}

$H_0$

Acredito que a resposta principal demonstra que esse não é um problema. A razão pela qual a distribuição parece não uniforme é porque os possíveis valores de p estão desigualmente espaçados. Glenn até chama isso de quase uniforme. Suponho que seja possível que, com alguns testes muito escassos de dados binomiais com Ns pequenos, talvez a probabilidade de valores-p específicos seja desigual, mas se você considerar a probabilidade de valores-p em um determinado intervalo, será mais próximo do uniforme.

— John

1

@amoeba: digamos que o teste t que você mencionou testa e você obtém . Pode ser que, com a mesma amostra você teste e obtenha , você diria que há mais evidências para ?

H_{0} : μ = 0.5

$H_0: \mu=0.5$

p = 0.0000000004

$p=0.0000000004$

H_{0} : μ = 0.45

$H_0: \mu=0.45$

p = 0.0000000001

$p=0.0000000001$

μ = 0.45

$\mu=0.45$