Por que os erros do tipo II não são tão enfatizados na literatura estatística?

Eu já vi muitos casos em que erros do tipo I são contabilizados (indicados por um valor alfa) em vários artigos de pesquisa. Eu achei raro que um pesquisador levasse em consideração o poder ou o erro do tipo II.

Erros do tipo II podem ser um grande problema, certo? Recusamos acidentalmente a hipótese alternativa quando ela era realmente falsa. Por que os valores alfa são tão enfatizados em vez dos valores beta?

Quando tirei as estatísticas do primeiro ano, nunca fui ensinado beta - apenas alfa. Eu sinto que esses dois erros devem ser tratados igualmente. No entanto, apenas o alfa parece ser enfatizado.

hypothesis-testing type-i-and-ii-errors

+1 O motivo é que, tradicionalmente, o erro do Tipo I (aka,

ou o nível de significância ) é corrigido primeiro e, em seguida, o teste é construído de modo a minimizar o erro do Tipo II (de maneira equivalente, para maximizar a potência). Um artigo útil na wikipedia para entender o problema é o dos testes Uniformemente Mais Poderosos (UMP), en.wikipedia.org/wiki/Uniformly_most_powerful_test

α

$\alpha$

— Jeremias K

Você está errado sobre "nós aceitamos a hipótese nula" - nós nunca a aceitamos. Nós "rejeitamos hyp nulo" ou "falhamos em rejeitar hyp nulo", mas nunca aceitamos hyp nulo!

— 28416

explodiu - que passou por mim. Obrigado por apontar isso.

Cuidado para não confundir sua própria experiência com todo o campo da literatura estatística; dificilmente é possível inferir o conteúdo de material que você não leu.

— Glen_b -Reinstala Monica

@glen à direita. Um título inteligente obtém mais respostas.

Respostas:

Essa é uma boa pergunta. Deixe-me começar com alguns esclarecimentos:

Realmente não significa nada para um "erro do tipo II [ser] significativo" (ou para um erro do tipo I). Certamente, pode ser muito importante que tenhamos perdido um efeito verdadeiro.
Além disso, geralmente não "aceitamos a hipótese nula". (Para saber mais sobre isso, pode ser útil ler minha resposta aqui: Por que os estatísticos dizem que um resultado não significativo significa "você não pode rejeitar o nulo" em vez de aceitar a hipótese nula? )

Eu acho que você (infelizmente) está certo que menos atenção seja dada ao poder e aos erros do tipo II. Embora eu ache que a situação está melhorando na pesquisa biomédica (por exemplo, agências de financiamento e IRBs geralmente exigem análises de energia agora), acho que há algumas razões para isso:

Eu acho que o poder é mais difícil para as pessoas entenderem do que o simples significado. (Isso ocorre em parte porque depende de muitas incógnitas - principalmente o tamanho do efeito, mas também existem outras).
A maioria das ciências (ou seja, além da física e da química) não está bem matematizada. Como resultado, é muito difícil para os pesquisadores para saber o que o tamanho do efeito 'deve' ser dada a sua teoria (que não seja apenas ). $\ne0$
Os cientistas tradicionalmente assumiram que os erros do tipo I são piores que os erros do tipo II.

— - Reinstate Monica
fonte

Como sempre, esclarecedor - especialmente para os não matematizados :-) ... Adoro essa redação ... Gostaria de saber se você poderia expandir um pouco no terceiro ponto ... Existe alguma base para esse viés. Eu sei que é verdade, mas por que você acha que é esse o caso ... É porque é sobre o troféu do valor-p, e nada mais importa?

— Antoni Parellada

Obrigado, @AntoniParellada. Vou pensar no que mais eu poderia adicionar.

— gung - Restabelece Monica

Eu esclareceria o ponto 3) por que os cientistas pensam que os erros do tipo I são piores. A hipótese nula é geralmente algum tipo de "status quo", por exemplo, o efeito desse novo medicamento é 0. Gostamos do status quo, e o ônus da prova está no pesquisador para provar o contrário. Portanto, queremos limitar o erro do tipo I, ou seja, rejeitamos erroneamente o status quo. Na IMO, esse apego ao status quo é apenas filosófico. Se você quiser mudar minha opinião, terá que provar.

— Heisenberg

Na prática, pode-se pensar facilmente nos casos em que o erro do tipo II é muito mais importante, ou seja, o custo de não rejeitar o nulo é alto. Por exemplo, se a humanidade enfrentar uma epidemia de zumbis, tenho certeza que a atitude seria "tente qualquer medicamento, mesmo que não funcione", em vez de "você tem que provar que funciona antes de usá-lo".

— Heisenberg

Adicionando ao @Heisenberg: Nos casos em que os erros do tipo II são mais importantes, deve-se considerar a alternância entre testes de hipótese de ponto e teste de equivalência. No seu exemplo, seria necessário provar que um molho de worcester proposto pelo menos não piora a epidemia de zumbis. Em seguida, as taxas de erro mudam de função e a taxa de erro mais importante é corrigida por design novamente. Além disso, se você tiver alguma estimativa de custo de decisões erradas, deve-se considerar uma regra de decisão que minimize o risco e não fixe (necessariamente) uma taxa de erro específica do tipo I.

— Horst Grünbusch 17/03/16

A razão é que simplesmente não sabemos a taxa de erro real do tipo II e nunca saberemos. Depende de um parâmetro que geralmente não sabemos. Por sua vez, se conhecermos esse parâmetro, não precisaremos fazer um teste estatístico.

No entanto, podemos planejar um experimento para que seja atingida uma taxa de erro específica do tipo II, desde que alguma alternativa seja verdadeira. Dessa forma, escolheríamos um tamanho de amostra que não desperdice recursos: porque o teste não rejeita no final ou porque um tamanho de amostra muito menor já seria suficiente para rejeitar a hipótese.

— Horst Grünbusch
fonte