Exemplos de estudos usando p <0,001, p <0,0001 ou valores de p ainda mais baixos?


11

Eu venho das ciências sociais, onde p <0,05 é praticamente a norma, com p <0,1 ep <0,01 também aparecendo, mas eu queria saber: que campos de estudo, se houver, usam valores de p mais baixos como comum padrão?

Respostas:


9

Minha opinião é que não depende (e deve) depender do campo de estudo. Por exemplo, você pode trabalhar com um nível de significância menor que se, por exemplo, estiver tentando replicar um estudo com resultados históricos ou bem estabelecidos (posso pensar em vários estudos sobre o efeito Stroop , que levaram algumas controvérsias nos últimos anos). Isso equivale a considerar um "limiar" mais baixo na estrutura clássica de Neyman-Pearson para testar hipóteses. No entanto, o significado estatístico e prático (ou substantivo) é outra questão.p<0.001

Sidenote . O "sistema estelar" parece ter dominado as investigações científicas já nos anos 70, mas ver The Earth Is Round (p <.05), de J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), apesar do fato de que muitas vezes queremos saber são dados os dados que observei, qual é a probabilidade de ser verdadeiro? Enfim, também há uma boa discussão sobre " Por que P = 0,05? ", De Jerry Dallal.H0


Corrija minha linha de raciocínio: alguns campos podem se concentrar em, digamos, exposição bioquímica e, portanto, desejam usar p <0,001 para evitar qualquer erro do tipo I que possa levar a riscos à saúde. Além disso, ao longo deste artigo de Am Psych , também me lembro de um grande estudo no jornal Am J of Sociol ou em uma das revistas de ciências sociais que sigo. Meu favorito é, é claro, Ziliak e McCloskey .
pe.

1
O que você descreve aqui soa ao contrário. Eu ficaria preocupado com erros do tipo II, dizendo que algo não existe quando está, com exposição bioquímica. Nesse caso, eu poderia definir alfa mais alto, não mais baixo.
John John

Eu estava trabalhando com a suposição de que o teste teria a seguinte forma: "Vamos avaliar se a gravidez está relacionada à TRH" (nesse caso, um erro do tipo I é mais sério do que um erro do tipo II, mas talvez esse design não seja padrão).
pe.

7

Pode ser raro alguém usar um nível alfa pré-especificado menor que, digamos, 0,01, mas não é tão raro que as pessoas reivindiquem um alfa implícito menor que 0,01 na crença equivocada de que um valor P observado menor que 0,01 é o mesmo que um alfa de Neyman-Pearson menor que 0,01.

P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Dê uma olhada em Hubbard et al. Confusão sobre medidas de evidência (p's) versus erros (α's) em testes estatísticos clássicos. The American Statistician (2003) vol. 57 (3)


Entendo a distinção, embora provavelmente esteja cometendo o erro rotineiramente. Mas minha pergunta é: existe algum uso convencional, em algum lugar, de p <0,0001, por exemplo? Ou, provocativamente, o culto de p <0,05 é universal?
pe.

O 'culto' de P <0,05 pode ser quase universal, mas não é possível ter certeza sobre quaisquer afirmações sobre esse ponto, porque as aparentes exceções provavelmente resultam da hibridação desconhecida dos métodos de Fisher e Neyman-Pearson. Nos trabalhos de pesquisa farmacológica básica, quase nunca há uma declaração explícita sobre o uso das taxas de erro de Neyman-Pearson.
Michael Lew

Obrigado pelo exemplo. Estou cada vez menos impressionado com a pesquisa farmacológica, por muitas razões (não todas científicas) ...
pe.

1
Você não deve considerar meu comentário sobre a pesquisa farmacológica básica como uma crítica específica a esse campo; é apenas minha disciplina particular e, portanto, aquela com a qual tenho mais experiência. Estou confiante de que você encontraria muitas áreas na pesquisa básica com exatamente as mesmas deficiências em relação aos valores de P hibridados e taxas de erro.
Michael Lew

Não se preocupe, posso facilmente imaginar que essa deficiência viaja bem entre os campos de investigação.
pe.

3

Eu não estou muito familiarizado com esta literatura, mas acredito que alguns físicos usam limiares muito mais baixos em testes estatísticos, mas eles falam sobre isso de maneira um pouco diferente. Por exemplo, se uma medida tiver três desvios padrão da previsão teórica, ela será descrita como um desvio de “três sigma”. Basicamente, isso significa que o parâmetro de interesse é estatisticamente diferente do valor previsto no teste az com α = 0,01. Dois sigma é aproximadamente equivalente a α = 0,05 (na verdade seria 1,96 σ). Se não me engano, o nível de erro padrão na física é 5 sigma, que seria α = 5 * 10 ^ -7

Além disso, em neurociência ou epidemiologia, parece cada vez mais comum realizar rotineiramente alguma correção para múltiplas comparações. O nível de erro para cada teste individual pode, portanto, ser menor que p <0,01


1
α=5×108

1

Como observado por Gaël Laurans acima, as análises estatísticas que se deparam com o problema de comparação múltipla tendem a usar limiares mais conservadores. No entanto, em essência, eles estão usando 0,05, mas multiplicados pelo número de testes. É óbvio que esse procedimento (correção de Bonferroni) pode levar rapidamente a valores de p incrivelmente pequenos. É por isso que as pessoas no passado (em neurociência) pararam em p <0,001. Atualmente, outros métodos de correção múltipla de comparação são usados ​​(consulte a teoria aleatória de campos de Markov).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.