Eu me ofendo com as duas idéias a seguir:
Com amostras grandes, os testes de significância surgem em desvios minúsculos e sem importância da hipótese nula.
Quase nenhuma hipótese nula é verdadeira no mundo real, portanto, executar um teste de significância sobre elas é absurdo e bizarro.
É um argumento tão confuso sobre valores-p. O problema fundamental que motivou o desenvolvimento das estatísticas vem de ver uma tendência e querer saber se o que vemos é por acaso ou representativo de uma tendência sistemática.
Com isso em mente, é verdade que nós, como estatísticos, normalmente não acreditamos que uma hipótese nula seja verdadeira (ou seja, , em que é a diferença média em algumas medidas entre dois grupos). No entanto, com testes nos dois lados, não sabemos qual hipótese alternativa é verdadeira! Em um teste de dois lados, podemos estar dispostos a dizer que temos 100% de certeza de que antes de ver os dados. Mas não sabemos se ou . Portanto, se executarmos nosso experimento e concluirmos que , rejeitamos (como diria Matloff; conclusão inútil), mas, mais importante, também rejeitamosHo:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (digo; conclusão útil). Como @amoeba apontou, isso também se aplica a testes unilaterais com potencial para serem bilaterais, como testar se um medicamento tem um efeito positivo.
É verdade que isso não diz a magnitude do efeito. Mas indica a direção do efeito. Então não vamos colocar a carroça diante do cavalo; Antes de começar a tirar conclusões sobre a magnitude do efeito, quero ter certeza de que tenho a direção correta do efeito!
Da mesma forma, o argumento de que "os valores-p atacam efeitos minúsculos e sem importância" parece-me bastante errado. Se você pensa em um valor-p como uma medida de quanto os dados suportam a direção da sua conclusão, é claro que deseja que ele capte pequenos efeitos quando o tamanho da amostra for grande o suficiente. Dizer que isso significa que eles não são úteis é muito estranho para mim: esses campos de pesquisa que sofreram valores-p são os mesmos que têm tantos dados que não precisam avaliar a confiabilidade de suas estimativas? Da mesma forma, se o seu problema for realmente o de que os valores p " efeito", você pode simplesmente testar as hipóteses eH 2 : µ d < - 1H1:μd>1H2:μd<−1(supondo que você acredite que 1 seja o tamanho mínimo de efeito importante). Isso é feito frequentemente em ensaios clínicos.
Para ilustrar isso, suponha que apenas analisamos os intervalos de confiança e descartamos os valores de p. Qual é a primeira coisa que você verifica no intervalo de confiança? Se o efeito foi estritamente positivo (ou negativo) antes de levar os resultados muito a sério. Como tal, mesmo sem valores-p, estaríamos informalmente realizando testes de hipóteses.
Finalmente, no que diz respeito à solicitação do OP / Matloff, "Dê um argumento convincente de que os valores-p são significativamente melhores", acho que a pergunta é um pouco estranha. Digo isso porque, dependendo da sua visão, ela se responde automaticamente ("dê-me um exemplo concreto em que testar uma hipótese é melhor do que não testá-la"). No entanto, um caso especial que eu acho quase inegável é o dos dados do RNAseq. Nesse caso, estamos normalmente analisando o nível de expressão do RNA em dois grupos diferentes (isto é, doentes, controles) e tentando encontrar genes que são expressos diferencialmente nos dois grupos. Nesse caso, o tamanho do efeito em si não é realmente significativo. Isso ocorre porque os níveis de expressão de genes diferentes variam tanto que, para alguns genes, ter uma expressão 2x mais alta não significa nada, enquanto em outros genes fortemente regulados, a expressão 1,2x mais alta é fatal. Portanto, a magnitude real do tamanho do efeito é realmente um pouco desinteressante ao comparar os grupos pela primeira vez. Mas vocêrealmente, realmente quero saber se a expressão do gene muda entre os grupos e a direção da mudança! Além disso, é muito mais difícil resolver os problemas de várias comparações (para as quais você pode estar fazendo 20.000 delas em uma única execução) com intervalos de confiança do que com valores-p.