Por que as pessoas não trocam nível de significância por poder?


7

Como convenção, temos muitos estudos cujo nível de significância é e um poder de . No entanto, é extremamente raro encontrar um estudo cujo com um poder de .0,050,8α=0,20,95

Pelo que entendi, após a realização de um experimento, o nível de significância não importa se o resultado não for significativo, porque, neste caso, estamos considerando se faz sentido aceitar o nulo e todos os que nos importam é o poder. Da mesma forma, se o resultado for significativo, o nível de significância se tornará sua evidência, enquanto o poder do teste faz absolutamente nenhuma diferença. (Por "não importa", quero dizer "não é para o propósito deste experimento". Tanto o nível de significância quanto o poder devem ser importantes para os meta-estudos; portanto, informe ambos na sua publicação!)

Se eu estiver correto, o nulo e a alternativa são, em certa medida, simétricos: a hipótese nula não exige inerentemente mais proteção. Se você quiser provar a alternativa, diga "esta nova droga afeta os pacientes" e use um muito pequeno e uma potência moderadamente alta. Por outro lado, quando você quiser provar o nulo, por exemplo, em um teste de normalidade, escolha um moderadamente pequeno e uma potência muito alta, para poder aceitar o nulo confidencialmente.αα

Por que as experiências com moderadamente pequeno e com potência muito alta são tão raras?α


3
Como a convenção cultural de está fortemente estabelecida? α=0,05
Ben Bolker

2
Vemos 5% do total, mas não por um bom motivo; em muitas situações, certamente devemos considerar níveis de significância menores (e, em alguns casos, maiores) - e, talvez em muitas outras situações ainda, reconsiderar se um teste de significância é realmente a ferramenta certa para o trabalho (geralmente não é, mas se todos você tem na sua caixa de ferramentas um martelo ...). Fisher geralmente considerava 5% como a evidência mais fraca a que ele considerava prestar atenção ( e ele era um defensor da replicação de experimentos além disso), mas por algum motivo isso acabou sendo visto como um padrão.
Glen_b -Reinstar Monica

2
Tudo o que posso dizer é que, se você conseguir ler um pouco do que Fisher escreveu sobre isso, verá o quão importante ele viu a replicação como parte do processo. Não tenho uma referência à mão, mas a maioria de seus artigos (e comentários em outros artigos) estão disponíveis ao público. (Seus livros podem muito bem ser fontes melhores, se não forem tão facilmente vistos). Como exemplo de sua importância, ver este trabalho ... o que diz (primeira frase do quarto parágrafo " Três princípios de design experimentais fundamentais atribuídos a Fisher são aleatorização, replicação e bloqueando ."
Glen_b -Reinstate Monica

2
Esse artigo faz referência a "Design of Experiments, 6ed", de Fisher. No entanto, isso discute principalmente o uso da replicação pelo pesquisador (que serve a vários propósitos importantes); ele também via a replicação por outros como importante ao tentar chegar a fatos diante da incerteza também.
Glen_b -Reinstar Monica

11
Devido a vários testes e todos os outros vieses não considerados, a taxa de descoberta falsa tende a ser muito maior do que α. Ao mesmo tempo, o custo (e o risco) de um falso positivo tendem a ser muito piores. Assim, em 0,2, na realidade, mais de 50% pode ser falso em um experimento mais detalhado, mas caro. Negativos falsos geralmente não custam muito, em particular se você assumir que alguém testará independentemente a mesma hipótese novamente em um estágio posterior.
QuIT - Anony-Mousse

Respostas:


5

Por que as experiências com moderadamente pequeno α e poder muito alto tão raro?

Tudo isso é um pouco relativo, mas certamente alguém poderia argumentar que o nível de significância α=0,05 já é fraco e já constitui um sacrifício feito por poder superior (por exemplo, relativo ao nível de significância α=0,01ou outros níveis mais baixos de significância). Embora as opiniões sobre isso sejam diferentes, minha opinião é de que este já é um nível de significância muito fraco, portanto, escolhê-lo já é uma troca para obter maior poder.

Pelo que entendi, após a realização de um experimento, o nível de significância não importa se o resultado não for significativo, porque, neste caso, estamos considerando se faz sentido aceitar o nulo e todos os que nos importam é o poder. Da mesma forma, se o resultado for significativo, o nível de significância se tornará sua evidência, enquanto o poder do teste faz absolutamente nenhuma diferença.

Entendo por que você pode pensar isso, mas não é realmente verdade. No teste clássico de hipóteses, há uma interação bastante complexa e sutil nessas coisas. Lembre-se de que tanto o valor p quanto o poder pertencem às probabilidades que condicionam o estado real das hipóteses (as condições do valor p no nulo e as condições de energia na alternativa). Quando obtém o resultado dos dados, você faz uma inferência sobre as hipóteses, mas ainda não sabe o seu verdadeiro estado. Portanto, não é realmente legítimo dizer que você pode ignorar completamente a "outra metade" do teste. Independentemente de o resultado ser estatisticamente significativo ou não, a interpretação desse resultado é feita holisticamente, com relação a todas as propriedades do teste.

Também é importante notar que, para um modelo e teste fixos e um tamanho fixo de amostra, a função power é uma função do nível de significância escolhido. O nível de significância escolhido determina a região de rejeição, o que afeta diretamente o poder do teste. Então, novamente, há um relacionamento entre essas coisas e você não pode ignorar "metade" das propriedades do teste.


Eu concordaria que α e 1 1-β estão correlacionados negativamente, mas, no momento em que você conduz o experimento, seu design deve ter sido finalizado. Nesse momento, α e 1 1-βjá são parâmetros fixos do teste. Para um resultado não significativo, mal consigo entender como você pode interpretá-lo em termos de "a probabilidade do resultado ser significativo quando o nulo é verdadeiro". Você está considerando o fato de que uma maiorα implica uma maior p?
Nalzok 25/07/19

Uma maior α não implica uma maior p. Este último é uma função dos dados e não é afetado porα.
Ben - Restabelece Monica

Quero dizer, condicionando o resultado a não ser significativo, temos pα, então um maior α elimina a possibilidade de um pequeno p. Esta é a única maneira de entender por queαdesempenha um papel na interpretação de um resultado não significativo. É nisso que você está pensando?
Nalzok 25/07/19

Aproximadamente, mas mesmo assim, a função de poder apenas olha o comportamento condicional ao fato de a hipótese alternativa ser verdadeira.
Ben - Restabelece Monica

4

Este é mais um comentário extenso do que uma resposta. Uma perspectiva interessante pode ser encontrada nesta postagem do blog , uma breve citação:

... afirma que a palavra [significado] teve muito menos peso no final do século 19, quando significava apenas que o resultado mostrava, ou significava, algo. Então, no século 20, o significado começou a reunir a conotação que carrega hoje, não apenas significando algo, mas significando algo de importância. ...

Se isto estiver correto, então Fisher pode ter querido dizer com significativa em vez algo como digno de tomar uma nota (mental ou no caderno de laboratório), digno de uma investigação mais aprofundada ou replicação.

Este artigo psyarxiv, que propõe reduzir o nível de significância padrão (na pesquisa em psicologia) de 0,05 para 0,005, é mais uma evidência que muitos vêem (com razão ...) que 0,05 já é um requisito bastante fraco.



1

Como os erros do tipo II são considerados menos problemáticos do que os erros do tipo I. Erros do tipo I têm maiores implicações para pesquisas futuras. Além disso, na maioria das vezes, experimentos com alta potência são muito mais caros.

Mas é claro que você também pode questionar toda a estrutura do NHST e a maneira como ela é frequentemente usada por pesquisadores desconhecidos ...

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.