Geralmente, você pode continuar melhorando sua estimativa de qualquer parâmetro que possa estar testando com mais dados. Interromper a coleta de dados quando um teste atingir algum grau de significância semi-arbitrário é uma boa maneira de fazer inferências ruins. O fato de os analistas interpretarem mal um resultado significativo como um sinal de que o trabalho está concluído é uma das muitas conseqüências não intencionais da estrutura de Neyman – Pearson, segundo a qual as pessoas interpretam os valores de p como causa para rejeitar ou deixar de rejeitar um nulo sem reservas, dependendo da de que lado do limiar crítico eles caem.
Sem considerar as alternativas bayesianas ao paradigma freqüentista (espero que outra pessoa o faça), os intervalos de confiança continuam sendo mais informativos muito além do ponto em que uma hipótese nula básica pode ser rejeitada. Supondo que a coleta de mais dados apenas faria com que seu teste de significância básico alcançasse uma significância ainda maior (e não revelasse que sua descoberta anterior de significância era um falso positivo), você pode achar isso inútil porque rejeitaria o nulo de qualquer maneira. No entanto, nesse cenário, seu intervalo de confiança em torno do parâmetro em questão continuará diminuindo, melhorando o grau de confiança com o qual você pode descrever com precisão sua população de interesse.
Aqui está um exemplo muito simples em r - testando a hipótese nula que para uma variável simulada:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
Aqui eu apenas usei t.test(rnorm(99))
e obtive um falso positivo (supondo que eu tenha padronizado como minha opção aceitável de taxa de erro falso positivo). Se eu ignorar o intervalo de confiança, posso afirmar que minha amostra é de uma população com uma média que difere significativamente de zero. Tecnicamente, o intervalo de confiança também não contesta isso, mas sugere que a média pode estar muito próxima de zero, ou ainda mais longe do que eu acho, com base nesta amostra. Claro, eu sei que o nulo é realmente literalmente verdade aqui, porque a média da população é padronizada como zero, mas raramente se sabe com dados reais.α = 0,05rnorm
Executar isso novamente como set.seed(8);t.test(rnorm(99,1))
produz uma média da amostra de 0,91, p = 5,3E-13 e um intervalo de confiança de 95% para . Desta vez, posso ter certeza de que o nulo é falso, especialmente porque eu o construí configurando a média dos meus dados simulados como 1.μ = [ 0,69 , 1,12 ]
Ainda assim, diga que é importante saber quão diferente de zero é; talvez uma média de 0,8 esteja muito perto de zero para que a diferença seja importante. Percebo que não tenho dados suficientes para descartar a possibilidade de que do meu intervalo de confiança e de um teste t com , o que resulta em p = 0,33. A média da minha amostra é alta o suficiente para parecer significativamente diferente de zero, de acordo com esse limiar de 0,8; coletar mais dados pode ajudar a aumentar minha confiança de que a diferença é pelo menos tão grande e não apenas trivialmente maior que zero.μ = 0,8mu=.8
Como estou "coletando dados" por simulação, posso ser um pouco irreal e aumentar meu tamanho de amostra em uma ordem de magnitude. A execução set.seed(8);t.test(rnorm(999,1),mu=.8)
revela que mais dados continuam a ser úteis depois de rejeitar a hipótese nula de nesse cenário, porque agora posso rejeitar um nulo de com minha amostra maior. O intervalo de confiança de sugere que eu poderia ter rejeitado hipóteses nulas até se eu tivesse fazê-lo inicialmente.μ = 0,8 μ = [ 0,90 , 1,02 ] μ = 0,89μ = 0μ = 0,8μ = [ 0,90 , 1,02 ]μ = 0,89
Não posso revisar minha hipótese nula após o fato, mas sem coletar novos dados para testar uma hipótese ainda mais forte após esse resultado, posso dizer com 95% de confiança que replicar meu "estudo" me permitiria rejeitar um . Novamente, apenas porque posso simular isso facilmente, executarei o código novamente da seguinte maneira : isso demonstra que minha confiança não foi extraviada.H0 0: μ = 0,9set.seed(9);t.test(rnorm(999,1),mu=.9)
Testar hipóteses nulas progressivamente mais rigorosas, ou melhor ainda, simplesmente focar em diminuir seus intervalos de confiança é apenas uma maneira de proceder. Obviamente, a maioria dos estudos que rejeitam hipóteses nulas estabelece as bases para outros estudos que se baseiam na hipótese alternativa. Por exemplo, se eu estivesse testando uma hipótese alternativa de que uma correlação é maior que zero, eu poderia testar mediadores ou moderadores em um estudo de acompanhamento a seguir ... e enquanto estiver nisso, eu definitivamente quero ter certeza Eu poderia replicar o resultado original.
Outra abordagem a considerar é o teste de equivalência . Se você quiser concluir que um parâmetro está dentro de um certo intervalo de valores possíveis, não apenas diferente de um único valor, é possível especificar o intervalo de valores que você deseja que o parâmetro seja, de acordo com sua hipótese alternativa convencional e testá-lo contra um conjunto diferente de hipóteses nulas que juntas representam a possibilidade de o parâmetro estar fora desse intervalo. Essa última possibilidade pode ser mais parecida com a que você tinha em mente quando escreveu:
Temos "algumas evidências" para que a alternativa seja verdadeira, mas não podemos tirar essa conclusão. Se eu realmente quero tirar essa conclusão conclusivamente ...
set.seed(8)
rnorm(99)
rnorm(99,1)-1
μ = 0,8- .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
μ = [ - .27 , .09 ]rnorm(999)
μ = [ - 0,09 ; 0,01 ]
Ainda acho que o intervalo de confiança é mais interessante que o resultado do teste de equivalência. Representa o que os dados sugerem que a população quer dizer é mais especificamente do que a hipótese alternativa e sugere que posso estar razoavelmente confiante de que está dentro de um intervalo ainda menor do que especifiquei na hipótese alternativa. Para demonstrar, vou abusar dos meus poderes irrealistas de simulação mais uma vez e "replicar" usando set.seed(7);tost(rnorm(999),epsilon=.09345092)
: com certeza, p = 0,002.