Respostas:
Minha opinião é que não depende (e deve) depender do campo de estudo. Por exemplo, você pode trabalhar com um nível de significância menor que se, por exemplo, estiver tentando replicar um estudo com resultados históricos ou bem estabelecidos (posso pensar em vários estudos sobre o efeito Stroop , que levaram algumas controvérsias nos últimos anos). Isso equivale a considerar um "limiar" mais baixo na estrutura clássica de Neyman-Pearson para testar hipóteses. No entanto, o significado estatístico e prático (ou substantivo) é outra questão.
Sidenote . O "sistema estelar" parece ter dominado as investigações científicas já nos anos 70, mas ver The Earth Is Round (p <.05), de J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), apesar do fato de que muitas vezes queremos saber são dados os dados que observei, qual é a probabilidade de ser verdadeiro? Enfim, também há uma boa discussão sobre " Por que P = 0,05? ", De Jerry Dallal.
Pode ser raro alguém usar um nível alfa pré-especificado menor que, digamos, 0,01, mas não é tão raro que as pessoas reivindiquem um alfa implícito menor que 0,01 na crença equivocada de que um valor P observado menor que 0,01 é o mesmo que um alfa de Neyman-Pearson menor que 0,01.
Eu não estou muito familiarizado com esta literatura, mas acredito que alguns físicos usam limiares muito mais baixos em testes estatísticos, mas eles falam sobre isso de maneira um pouco diferente. Por exemplo, se uma medida tiver três desvios padrão da previsão teórica, ela será descrita como um desvio de “três sigma”. Basicamente, isso significa que o parâmetro de interesse é estatisticamente diferente do valor previsto no teste az com α = 0,01. Dois sigma é aproximadamente equivalente a α = 0,05 (na verdade seria 1,96 σ). Se não me engano, o nível de erro padrão na física é 5 sigma, que seria α = 5 * 10 ^ -7
Além disso, em neurociência ou epidemiologia, parece cada vez mais comum realizar rotineiramente alguma correção para múltiplas comparações. O nível de erro para cada teste individual pode, portanto, ser menor que p <0,01
Como observado por Gaël Laurans acima, as análises estatísticas que se deparam com o problema de comparação múltipla tendem a usar limiares mais conservadores. No entanto, em essência, eles estão usando 0,05, mas multiplicados pelo número de testes. É óbvio que esse procedimento (correção de Bonferroni) pode levar rapidamente a valores de p incrivelmente pequenos. É por isso que as pessoas no passado (em neurociência) pararam em p <0,001. Atualmente, outros métodos de correção múltipla de comparação são usados (consulte a teoria aleatória de campos de Markov).