Quanto ao teste de significância (ou qualquer outra coisa que faça essencialmente a mesma coisa que o teste de significância), há muito tempo penso que a melhor abordagem na maioria das situações provavelmente é estimar um tamanho de efeito padronizado, com um intervalo de confiança de 95% sobre isso. tamanho do efeito. Não há nada realmente novo lá - matematicamente, você pode alternar entre eles - se o valor de p para um nulo 'nulo' for <0,05, então 0 ficará fora de um IC de 95% e vice-versa. A vantagem disso, na minha opinião, é psicológica; isto é, cria informações salientes que existem, mas que as pessoas não conseguem ver quando apenas os valores de p são relatados. Por exemplo, é fácil ver que um efeito é extremamente "significativo", mas ridiculamente pequeno; ou "não significativo", mas apenas porque as barras de erro são enormes, enquanto o efeito estimado é mais ou menos o esperado. Eles podem ser combinados com valores brutos e seus ICs.
Agora, em muitos campos, os valores brutos são intrinsecamente significativos, e reconheço que isso levanta a questão de se ainda vale a pena calcular medidas de tamanho de efeito, já que já temos valores como médias e inclinações. Um exemplo pode ser o crescimento atrofiado; sabemos o que significa que um homem branco de 20 anos é 6 +/- 2 polegadas mais baixo (ou seja, 15 +/- 5 cm) do que seria de outra forma, então por que mencionar ? Costumo pensar que ainda pode haver valor ao relatar os dois, e funções podem ser escritas para computá-las, de modo que é muito pouco trabalho extra, mas reconheço que as opiniões variam. De qualquer forma, argumento que as estimativas pontuais com intervalos de confiança substituem os valores-p como a primeira parte da minha resposta. d=−1.6±.5
Por outro lado, acho que uma pergunta maior é 'é a coisa que o teste de significância faz o que realmente queremos?' Penso que o verdadeiro problema é que, para a maioria das pessoas que analisa dados (ou seja, profissionais e não estatísticos), o teste de significância pode se tornar a totalidade da análise de dados. Parece-me que o mais importante é ter uma maneira fundamentada de pensar sobre o que está acontecendo com nossos dados, e o teste de significância de hipóteses nulas é, na melhor das hipóteses, uma parte muito pequena disso. Deixe-me dar um exemplo imaginário (reconheço que é uma caricatura, mas, infelizmente, temo que seja algo plausível):
Bob conduz um estudo, coletando dados sobre algo ou outro. Ele espera que os dados sejam normalmente distribuídos, agrupando-se firmemente em torno de algum valor, e pretende realizar um teste t de uma amostra para verificar se os dados são 'significativamente diferentes' de algum valor pré-especificado. Depois de coletar sua amostra, ele verifica se seus dados são normalmente distribuídos e descobre que não. Em vez disso, eles não têm um nódulo pronunciado no centro, mas são relativamente altos em um determinado intervalo e depois se arrastam com uma longa cauda esquerda. Bob se preocupa com o que deve fazer para garantir que seu teste seja válido. Ele acaba fazendo alguma coisa (por exemplo, uma transformação, um teste não paramétrico, etc.) e depois relata uma estatística de teste e um valor-p.
Espero que isso não pareça tão desagradável. Não pretendo zombar de ninguém, mas acho que algo assim acontece ocasionalmente. Caso esse cenário ocorra, todos podemos concordar que é uma análise de dados ruim. No entanto, o problema não é que a estatística do teste ou o valor p esteja errado; podemos afirmar que os dados foram tratados adequadamente nesse sentido. Eu argumentaria que o problema é que Bob está envolvido no que Cleveland chamou de "análise de dados rotineiros". Ele parece acreditar que o único ponto é obter o valor p certo e pensa muito pouco em seus dados fora de perseguir esse objetivo. Ele até poderia ter mudado para a minha sugestão acima e relatado um tamanho de efeito padronizado com um intervalo de confiança de 95%, e isso não teria mudado o que considero o maior problema (é isso que eu quis dizer com fazer "essencialmente a mesma coisa "por um meio diferente). Nesse caso específico, o fato de os dados não parecerem como ele esperava (ou seja, não eram normais) é uma informação real, é interessantee muito possivelmente importante, mas essas informações são basicamente jogadas fora. Bob não reconhece isso, por causa do foco nos testes de significância. Na minha opinião, esse é o verdadeiro problema dos testes de significância.
Permitam-me abordar algumas outras perspectivas que foram mencionadas e quero deixar bem claro que não estou criticando ninguém.
- Muitas vezes é mencionado que muitas pessoas realmente não entendem os valores-p (por exemplo, pensando que são as probabilidades de que o nulo seja verdadeiro), etc. Algumas vezes é argumentado que, se apenas as pessoas usassem a abordagem bayesiana, esses problemas vá embora. Acredito que as pessoas possam abordar a análise de dados bayesiana de maneira igualmente incurável e mecânica. No entanto, acho que entender mal o significado dos valores-p seria menos prejudicial se ninguém pensasse que obter um valor-p era o objetivo.
- A existência de 'big data' geralmente não está relacionada a esse problema. O big data apenas torna óbvio que organizar a análise de dados em torno de 'significância' não é uma abordagem útil.
- Não acredito que o problema esteja com a hipótese sendo testada. Se as pessoas quiserem apenas ver se o valor estimado está fora de um intervalo, e não se for igual a um valor pontual, muitos dos mesmos problemas podem surgir. (Mais uma vez, quero deixar claro que sei que você não é 'Bob' .)
- Para constar, quero mencionar que minha própria sugestão do primeiro parágrafo não aborda a questão, como tentei salientar.
Para mim, esta é a questão central: o que realmente queremos é uma maneira de pensar sobre o que aconteceu . O que isso significa em qualquer situação não é cortado e seco. Como transmitir isso aos alunos de uma aula de métodos não é claro nem fácil. O teste de significância tem muita inércia e tradição por trás disso. Em uma aula de estatística, fica claro o que precisa ser ensinado e como. Para estudantes e profissionais, torna-se possível desenvolver um esquema conceitual para entender o material e um checklist / fluxograma (já vi alguns!) Para conduzir análises. O teste de significância pode evoluir naturalmente para a análise de dados rotineiros, sem que ninguém seja burro, preguiçoso ou ruim. Esse é o problema.