Agora que rejeitei a hipótese nula, o que vem a seguir?


23

Eu tenho uma e outra vez rejeitado ou não rejeitou a hipótese nula. Na falha em rejeitar o caso, você conclui que não há evidências suficientes para rejeição e "segue em frente" (ou seja, reúne mais dados, encerra o experimento etc.)

Mas quando você "rejeita" a hipótese nula, fornecendo alguma evidência para a hipótese alternativa, você realmente não pode "provar" que sua hipótese alternativa é verdadeira.

Então, quais são os próximos passos comuns depois de rejeitar a hipótese nula? Quais ferramentas / técnicas são adotadas para "analisar o problema ainda mais" para tornar mais conclusivas as conclusões? Quais são os "próximos passos" lógicos como estatístico que justifica uma análise mais aprofundada?

Por exemplo:

H0:μ1=μ0

H1:μ1>μ0 (digamos que sabemos a direção esperada)

Depois de rejeitarmos a hipótese nula em algum nível de significância, temos "algumas evidências" para que a alternativa seja verdadeira, mas não podemos tirar essa conclusão. Se eu realmente quero tirar essa conclusão conclusivamente (perdoe o jogo de palavras duplas), o que devo fazer?

Eu nunca ponderei sobre essa questão durante meus estudos de graduação, mas agora que estou fazendo uma série de testes de hipóteses, não posso deixar de me perguntar o que está por vir :)



3
De um modo geral, suas ações após a sua decisão também devem ser escolhidas antes do teste (de que outra forma você pode ponderar os custos dos dois tipos de erros e, assim, escolher um sensato ?). No mínimo, você provavelmente passaria à consideração dos tamanhos estimados dos efeitos. O nulo não é sustentável (pelos critérios que você escolheu - se isso não for suficiente para você, o que seria?), Então quais valores são plausíveis? por exemplo, no teste indicado, que valores para seriam razoavelmente plausíveis, dados os dados? μ 1 - μ 0αμ1-μ0 0
Glen_b -Reinstate Monica

Respostas:


10

Geralmente, você pode continuar melhorando sua estimativa de qualquer parâmetro que possa estar testando com mais dados. Interromper a coleta de dados quando um teste atingir algum grau de significância semi-arbitrário é uma boa maneira de fazer inferências ruins. O fato de os analistas interpretarem mal um resultado significativo como um sinal de que o trabalho está concluído é uma das muitas conseqüências não intencionais da estrutura de Neyman – Pearson, segundo a qual as pessoas interpretam os valores de p como causa para rejeitar ou deixar de rejeitar um nulo sem reservas, dependendo da de que lado do limiar crítico eles caem.

Sem considerar as alternativas bayesianas ao paradigma freqüentista (espero que outra pessoa o faça), os intervalos de confiança continuam sendo mais informativos muito além do ponto em que uma hipótese nula básica pode ser rejeitada. Supondo que a coleta de mais dados apenas faria com que seu teste de significância básico alcançasse uma significância ainda maior (e não revelasse que sua descoberta anterior de significância era um falso positivo), você pode achar isso inútil porque rejeitaria o nulo de qualquer maneira. No entanto, nesse cenário, seu intervalo de confiança em torno do parâmetro em questão continuará diminuindo, melhorando o grau de confiança com o qual você pode descrever com precisão sua população de interesse.


Aqui está um exemplo muito simples em - testando a hipótese nula que para uma variável simulada:μ=0 0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

Aqui eu apenas usei t.test(rnorm(99))e obtive um falso positivo (supondo que eu tenha padronizado como minha opção aceitável de taxa de erro falso positivo). Se eu ignorar o intervalo de confiança, posso afirmar que minha amostra é de uma população com uma média que difere significativamente de zero. Tecnicamente, o intervalo de confiança também não contesta isso, mas sugere que a média pode estar muito próxima de zero, ou ainda mais longe do que eu acho, com base nesta amostra. Claro, eu sei que o nulo é realmente literalmente verdade aqui, porque a média da população é padronizada como zero, mas raramente se sabe com dados reais.α=.05rnorm

Executar isso novamente como set.seed(8);t.test(rnorm(99,1))produz uma média da amostra de 0,91, p = 5,3E-13 e um intervalo de confiança de 95% para . Desta vez, posso ter certeza de que o nulo é falso, especialmente porque eu o construí configurando a média dos meus dados simulados como 1.μ=[.69,1,12]

Ainda assim, diga que é importante saber quão diferente de zero é; talvez uma média de 0,8 esteja muito perto de zero para que a diferença seja importante. Percebo que não tenho dados suficientes para descartar a possibilidade de que do meu intervalo de confiança e de um teste t com , o que resulta em p = 0,33. A média da minha amostra é alta o suficiente para parecer significativamente diferente de zero, de acordo com esse limiar de 0,8; coletar mais dados pode ajudar a aumentar minha confiança de que a diferença é pelo menos tão grande e não apenas trivialmente maior que zero.μ=.8mu=.8

Como estou "coletando dados" por simulação, posso ser um pouco irreal e aumentar meu tamanho de amostra em uma ordem de magnitude. A execução set.seed(8);t.test(rnorm(999,1),mu=.8)revela que mais dados continuam a ser úteis depois de rejeitar a hipótese nula de nesse cenário, porque agora posso rejeitar um nulo de com minha amostra maior. O intervalo de confiança de sugere que eu poderia ter rejeitado hipóteses nulas até se eu tivesse fazê-lo inicialmente.μ = 0,8 μ = [ 0,90 , 1,02 ] μ = 0,89μ=0 0μ=.8μ=[.90,1.02]μ=.89

Não posso revisar minha hipótese nula após o fato, mas sem coletar novos dados para testar uma hipótese ainda mais forte após esse resultado, posso dizer com 95% de confiança que replicar meu "estudo" me permitiria rejeitar um . Novamente, apenas porque posso simular isso facilmente, executarei o código novamente da seguinte maneira : isso demonstra que minha confiança não foi extraviada.H0 0:μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

Testar hipóteses nulas progressivamente mais rigorosas, ou melhor ainda, simplesmente focar em diminuir seus intervalos de confiança é apenas uma maneira de proceder. Obviamente, a maioria dos estudos que rejeitam hipóteses nulas estabelece as bases para outros estudos que se baseiam na hipótese alternativa. Por exemplo, se eu estivesse testando uma hipótese alternativa de que uma correlação é maior que zero, eu poderia testar mediadores ou moderadores em um estudo de acompanhamento a seguir ... e enquanto estiver nisso, eu definitivamente quero ter certeza Eu poderia replicar o resultado original.


Outra abordagem a considerar é o teste de . Se você quiser concluir que um parâmetro está dentro de um certo intervalo de valores possíveis, não apenas diferente de um único valor, é possível especificar o intervalo de valores que você deseja que o parâmetro seja, de acordo com sua hipótese alternativa convencional e testá-lo contra um conjunto diferente de hipóteses nulas que juntas representam a possibilidade de o parâmetro estar fora desse intervalo. Essa última possibilidade pode ser mais parecida com a que você tinha em mente quando escreveu:

Temos "algumas evidências" para que a alternativa seja verdadeira, mas não podemos tirar essa conclusão. Se eu realmente quero tirar essa conclusão conclusivamente ...

set.seed(8)rnorm(99)rnorm(99,1)-1μ=.8-.2μ.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostμ=[-.27,.09]rnorm(999)μ=[-.09,.01]

Ainda acho que o intervalo de confiança é mais interessante que o resultado do teste de equivalência. Representa o que os dados sugerem que a população quer dizer é mais especificamente do que a hipótese alternativa e sugere que posso estar razoavelmente confiante de que está dentro de um intervalo ainda menor do que especifiquei na hipótese alternativa. Para demonstrar, vou abusar dos meus poderes irrealistas de simulação mais uma vez e "replicar" usando set.seed(7);tost(rnorm(999),epsilon=.09345092): com certeza, p = 0,002.


Esclarecedor! Você poderia, por favor, mostrar um exemplo rápido e sujo da última parte em que fala sobre testes de equivalência? Seria realmente útil ver em alto nível como isso poderia ser aplicável.
PhD

@ PhD: pronto. É mais "rápido e sujo" do que "de alto nível", eu acho. Sou novo no teste de equivalência e, como você verá, não sou exatamente vendido.
Nick Stauner

10

Observe primeiro que o @Nick Stauner apresenta alguns argumentos muito importantes sobre a parada opcional . Se você testar repetidamente os dados quando as amostras chegarem, parando quando o teste for significativo, você terá um resultado significativo. No entanto, um resultado garantido é praticamente inútil.

A seguir, apresentarei minhas melhores tentativas de elaborar uma posição dedutivista, cética e falsificacionista. Certamente não é o único, mas acho que é bastante popular, ou pelo menos um com um pouco de tradição.

Tanto quanto eu entendo, Fisher introduziu originalmente testes de significância como um primeiro passo na exploração de dados - estabeleça quais fatores podem valer a pena investigar mais. A menos que a hipótese nula que você colocou em teste seja realmente a hipótese crítica em que sua teoria preferida dependia (improvável), de certa forma, seu teste inicial era de natureza bastante exploratória. Entre os possíveis passos após a exploração, vejo

  • Exploração adicional
  • Estimativa de parâmetros
  • Previsão e confirmação

Uma exploração adicional consiste em testes de acompanhamento, nos quais você tenta inferir se alguma variável sobre a qual você tem informações é moderada ou interage com o seu efeito. Por exemplo, talvez a idade dos participantes tenha um papel? Observe que essas análises devem ser claramente rotuladas como exploratórias ou, basicamente, equivalem a mentiras. Se você se deparar com algo, primeiro é necessário confirmar. Geralmente, você deve sempre ser claro - tanto em seus pensamentos quanto em seus escritos - sobre quando você está trabalhando em caráter exploratório e confirmatório.

Em seguida, depois de estabelecer que você não confia no valor de um parâmetro sendo precisamente zero - depois de decidir por agora considerar o fator sob teste como tendo alguma influência - um próximo passo possível é estimar ainda mais o valor preciso do parâmetro . Por exemplo, por enquanto, você excluiu apenas um valor, 0 (assumindo um teste nos dois lados). No entanto, seus dados também lançam dúvidas sobre muitos outros valores possíveis.

αα

Hume argumentou que nunca podemos provar indutivamente que uma afirmação está correta. Geralmente, hipóteses não triviais são sempre muito mais fáceis de falsificar do que apoiar; ser fácil falsificar em princípio (por não ser trivial, fazer previsões precisas), mas ainda não ser falsificado até agora é, de fato, uma das mais altas virtudes de uma teoria.

Portanto, um IC não permitirá que você prove um valor específico. No entanto, reduz o conjunto de candidatos. Talvez os únicos candidatos deixados vivos o ajudem a decidir entre duas teorias incompatíveis com H0. Por exemplo, talvez 0 seja excluído, mas a teoria 1 prediz um valor em torno de 5 e a teoria 2 prediz um valor em torno de 15. Se seu IC de 95% inclui 5, mas exclui 15, agora você também perdeu a confiança na teoria 2, mas na teoria 1 permanece no jogo. Observe que isso é realmente independente de seu teste inicial ser significativo - mesmo que 0 esteja entre os valores não rejeitados, muitos valores serão rejeitados. Talvez para alguns outros pesquisadores, alguns desses valores tenham sido interessantes.

Depois de especificar um pouco a compreensão do efeito em questão, você poderia, idealmente, fazer uma previsão mais precisa para um experimento confirmativo de acompanhamento que visaria testar uma hipótese mais precisa que você pode derivar de sua análise atual. É certo que rejeitar sua hipótese nula estatística inicial não foi tão severo em um teste de sua hipótese original de pesquisa , não foi? Muito mais explicações do que a preferida não dependem de H0. Além disso, como você nunca correu o risco de aceitar H0, não estava em posição de falsificar sua teoria preferida! Então você precisa de um teste mais severo. Indiscutivelmente, isso é realmente o que você deseja; você não quer provar sua teoria, deseja submetê-la a testes cada vez mais severos, tentando falsificá-la. Resistir a esses esforços genuínos (mas justos) para refutá-la é o melhor que uma teoria pode oferecer. Mas para um teste severo, você precisa de uma teoria mais precisa do que "0 não é".

Agora você aprendeu vários fatos importantes sobre um estudo confirmatório; por exemplo, você tem uma idéia da variação e magnitude do efeito em questão, permitindo estimar o tamanho da amostra necessário para um estudo de acompanhamento via análise de potência. Você também pode prever um valor específico e assumir uma região de equivalência prática / CORDA em torno dele. Você nunca poderá provar que esse valor específico é o verdadeiro valor; no entanto, se o IC de um experimento de acompanhamento se encaixar inteiramente no seu ROPE, você tem evidências corroboradoras da sua teoria (e possivelmente causou problemas à concorrência).


6

A idéia de que você não pode provar uma proposição científica positiva, mas apenas refutar uma, é um princípio do falsificacionismo de Popper . Concordo que você não pode provar que um efeito é exatamente igual a um determinado valor de ponto (cf., minha resposta aqui: por que os estatísticos dizem que um resultado não significativo significa "você não pode rejeitar o nulo" em vez de aceitar a hipótese nula? ) Mas e daí?

p- os valores são geralmente mal compreendidos e os testes de hipóteses são usados ​​para tarefas que eles logicamente não podem realizar. Por exemplo, o teste de hipóteses não deve ser usado para gerar hipóteses ou selecionar variáveis. Além disso, com dados observacionais, essencialmente todas as hipóteses nulas 'nulas' devem ser falsas; portanto, testá-las faz pouco sentido. No entanto, os cientistas costumam ter hipóteses a priori sugeridas pelas teorias atuais que desejam testar, e em um experimento verdadeiro um nulo nulo pode ser verdadeiro, portanto testá-lo é perfeitamente razoável. Normalmente, os pesquisadores têm motivos para suspeitar que o nulo possa ser falso; portanto, um resultado significativo em conjunto com um experimento forte é uma informação válida.

Você sempre pode formar intervalos de confiança para obter uma imagem mais clara da precisão de sua estimativa e continuar a coletar mais dados para aumentar sua precisão. No entanto, em termos econômicos, você obterá retornos decrescentes . Em algum momento, você simplesmente não acredita que a hipótese nula forneça uma explicação razoável do fenômeno em estudo. Nesse caso, por que você está incomodando?

Se houver outras pessoas em seu campo que ainda não estão convencidas, mas estariam com mais dados (do mesmo), você pode continuar, mas isso parece uma situação incomum. Parece-me mais provável que os céticos tenham outras preocupações substanciais quanto à questão de saber se essa linha de investigação é suficientemente informativa sobre a questão subjacente. Portanto, você precisa determinar a natureza dessas preocupações e, se acha que elas merecem o trabalho, procure dados diferentes que abordem de maneira mais adequada os problemas em questão. Por exemplo, você pode tentar replicar a descoberta usando uma medida diferente, em uma configuração diferente e / ou com diferentes condições de controle.

Por outro lado, todos (mais ou menos) podem estar satisfeitos com seus dados e conclusões (parabéns!). Sob tais circunstâncias felizes, há duas direções que você pode seguir para continuar seu programa de pesquisa:

  1. Uma abordagem reducionista procuraria entender os mecanismos que produzem o efeito que você estabeleceu. Em termos estatísticos, você frequentemente procuraria mediadores e / ou um refino do padrão de forças causais que conectam as variáveis ​​que você mostrou estar relacionadas.

  2. BCAUMA

tl; dr: Se você tiver evidências suficientes para seus propósitos de que o nulo é falso, descubra quais outras questões teoricamente motivadas você poderia tentar responder e seguir em frente.


0

Alguém que gostaria de acrescentar é que sua pergunta me lembra meu eu mais jovem: eu queria desesperadamente provar minha hipótese porque não sabia como escrever "a hipótese estava errada" de uma maneira que ajudasse a melhorar o artigo que estava escrevendo. . Mas então percebi que a "maldita hipótese absolutamente adorável não pode ser provada" também possui valor científico: 1. Pense em por que sua hipótese não retém a água. É algum problema com os dados, ou provavelmente algo com a hipótese em si? 2. Quais são as consequências para pesquisas mais antigas?

Como exemplo: escrevi minha tese de mestrado sobre conflito étnico usando um novo conjunto de dados que era maior que os conjuntos de dados anteriores. Eu testei várias hipóteses controversas como "conflito étnico de combustíveis de petróleo" ou "regiões montanhosas são mais propensas a expiar conflitos". Não pude provar que o petróleo alimenta conflitos étnicos - mas escrevi duas páginas sobre como a qualidade do conjunto de dados de petróleo disponível afetou a análise (o conjunto de dados em si é uma série temporal, o conjunto de dados em poços de petróleo não). A tese "montanhas estão causando conflito" também foi um fracasso - mas frutífera: pesquisas anteriores analisaram essa tese com dados em nível de país (por exemplo, altura média do país ou mais),

Lembre-se: refutar uma hipótese não é um fracasso, mas um resultado tão bom quanto uma hipótese comprovada.


As hipóteses mencionadas não são hipóteses nulas (convencionais). Eu acho que você pode ter perdido o objetivo do OP.
Nick Stauner

0

Existe um método para pentear probabilidades nos estudos descritos aqui . Você não deve aplicar a fórmula às cegas sem considerar o padrão de resultados.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.