Aceitação de hipótese nula


15

Esta é uma questão de discussão sobre a interseção de estatística e outras ciências. Costumo enfrentar o mesmo problema: pesquisadores da minha área tendem a dizer que não há efeito quando o valor-p não é menor que o nível de significância. No começo, respondi muitas vezes que não é assim que o teste de hipóteses funciona. Dada a frequência com que essa pergunta surge, eu gostaria de discutir esse assunto com estatísticos mais experientes.

Vamos considerar um artigo recente em uma revista científica do “melhor grupo editorial” Nature Communications Biology (existem vários exemplos, mas vamos nos concentrar em um)

Os pesquisadores interpretam um resultado não estatisticamente significativo da seguinte maneira:

Assim, a restrição calórica moderada crônica pode prolongar a vida útil e melhorar a saúde de um primata, mas afeta a integridade da substância cinzenta do cérebro sem afetar o desempenho cognitivo .

Prova:

No entanto, o desempenho na tarefa do labirinto de Barnes não foi diferente entre animais controle e restritos a calorias (LME: F = 0,05, p = 0,82; Fig. 2a). Da mesma forma, a tarefa de alternância espontânea não revelou diferença entre animais controle e restritos a calorias (LME: F = 1,63, p = 0,22; Fig. 2b).

Os autores também sugerem a explicação da ausência do efeito - mas o ponto principal não é a explicação, mas a afirmação em si. Os gráficos fornecidos parecem significativamente diferentes "a olho nu" para mim (Figura 2).

Além disso, os autores ignoram o conhecimento prévio:

efeitos deletérios da restrição calórica no desempenho cognitivo foram relatados em ratos e nas funções cerebrais e emocionais em humanos

Eu posso entender a mesma afirmação para os enormes tamanhos de amostra (nenhum efeito = nenhum efeito praticamente significativo lá), mas em situações específicas foram utilizados testes complexos e não é óbvio para mim como realizar cálculos de potência.

Questões:

  1. Eu negligenciei alguns detalhes que validassem suas conclusões?

  2. Considerando a necessidade de relatar resultados negativos na ciência, como provar que não é "a ausência de resultado" (que temos com ), mas "resultado negativo (por exemplo, não há diferença entre grupos)" usando estatísticas? Entendo que, para tamanhos de amostra enormes, até pequenos desvios da rejeição de causa nula, mas vamos assumir que temos dados ideais e ainda precisamos provar que a nula é praticamente verdadeira.p>α

  3. Os estatísticos deveriam sempre insistir em conclusões matematicamente corretas, como "tendo esse poder, não fomos capazes de detectar efeitos de tamanho significativo"? Pesquisadores de outros campos não gostam muito dessas formulações de resultados negativos.

Eu ficaria feliz em ouvir qualquer opinião sobre o problema e li e entendi perguntas relacionadas neste site. Há uma resposta clara às questões 2) -3) do ponto de vista estatístico, mas eu gostaria de entender como essas perguntas devem ser respondidas em caso de diálogo interdisciplinar.

UPD: Eu acho que um bom exemplo de resultado negativo é a 1ª etapa dos ensaios médicos, a segurança. Quando os cientistas podem decidir que o medicamento é seguro? Eu acho que eles comparam dois grupos e fazem estatísticas sobre esses dados. Existe uma maneira de dizer que este medicamento é seguro? Cochrane usa acuradamente "nenhum efeito colateral foi encontrado", mas os médicos dizem que este medicamento é seguro. Quando o equilíbrio entre precisão e simplicidade da descrição se encontra e podemos dizer "não há conseqüências para a saúde"?


2
Você chama resultados que não são estatisticamente significativos de estudo "negativo". Este é o idioma defenestrating. Eu o revisei para chamá-lo como é: não estatisticamente significativo, por exemplo, . Se eu estiver errado, por favor me diga como. Caso contrário, é uma linguagem útil para você e seus colaboradores para descrever um estudo. p > α significa apenas que p > α . Se n = 500 , 000 que pode ser muito "positivo" encontrar em alguns aspectos; talvez este seja o primeiro estudo epidemiológico em larga escala a inspecionar a relação de uma exposição química e a saúde humana que considera que é de fato segura. p>αp>αp>αn=500,000
AdamO

4
Nota lateral: eu nunca sugeriria usar a Natureza como uma diretriz sobre como usar as estatísticas corretamente.
Cliff AB

1
@AdamO Eu tenho um exemplo de dois artigos publicados mais ou menos ao mesmo tempo, em um artigo os autores alegaram um resultado fortemente negativo (foi a principal conclusão); no segundo estudo mais poderoso, eles encontraram e efetuaram. Mas, se o primeiro autor escrever "tendo um poder de 80% com tamanho de efeito 1, não conseguimos encontrar um efeito significativo" - ele não seria publicado mesmo no jornal de resultados negativos.
German Demidov

2
mas não estatísticos estão me perguntando "como você prova resultados negativos?" - e eu não sei responder. E as hipóteses frequentemente usadas em ensaios de equivalência ? Isso inclui um termo extra como "margem de equivalência" e pode levar em consideração a diferença média.
Penguin_Knight

2
É um erro comum que o Nature Publishing Group esteja explorando, mas a diferença de prestígio entre os periódicos é enorme. Dito isto, é claro que os artigos da própria Nature também podem ter estatísticas desleixadas.
Ameba diz Reinstate Monica

Respostas:


7

Eu acho que às vezes é apropriado interpretar resultados não estatisticamente significativos no espírito de "aceitar a hipótese nula". De fato, vi estudos estatisticamente significativos interpretados dessa maneira; o estudo foi muito preciso e os resultados foram consistentes com uma faixa estreita de efeitos não nulos, mas clinicamente insignificantes. Aqui está uma crítica um tanto empolgante de um estudo (ou mais a imprensa) sobre a relação entre o consumo de chocolate / vinho tinto e seu efeito "salubre" no diabetes. As curvas de probabilidade para distribuições de resistência à insulina por ingestão alta / baixa são histéricas.

Se alguém pode interpretar os achados como "confirmando H_0" depende de um grande número de fatores: a validade do estudo, o poder, a incerteza da estimativa e as evidências anteriores. Relatar o intervalo de confiança (IC) em vez do valor-p é talvez a contribuição mais útil que você pode fazer como estatístico. Lembro aos pesquisadores e colegas estatísticos que as estatísticas não tomam decisões, as pessoas tomam; omitir valores-p na verdade incentiva uma discussão mais ponderada das descobertas.

A largura do IC descreve uma gama de efeitos que podem ou não incluir o valor nulo e podem ou não incluir valores muito clinicamente significativos, como o potencial de salvar vidas. No entanto, um IC estreito confirma um tipo de efeito; ou o último tipo, que é "significativo" no sentido verdadeiro, ou o primeiro, que pode ser o nulo ou algo muito próximo do nulo.

Talvez o que seja necessário seja um senso mais amplo do que são "resultados nulos" (e efeitos nulos). O que eu acho decepcionante na colaboração em pesquisa é quando os investigadores não podem afirmar a priori que gama de efeitos eles estão alvejando: se uma intervenção visa reduzir a pressão arterial, quantos mmHg? Se um medicamento se destina a curar o câncer, quantos meses de sobrevivência o paciente terá? Alguém que é apaixonado por pesquisa e "conectado" ao seu campo e ciência pode relatar os fatos mais surpreendentes sobre pesquisas anteriores e o que foi feito.

No seu exemplo, não posso deixar de notar que o valor p de 0,82 provavelmente está muito próximo do nulo. A partir disso, tudo o que posso dizer é que o IC está centrado em um valor nulo. O que eu não sei é se ele abrange efeitos clinicamente significativos. Se o IC for muito estreito, a interpretação que eles dão é, na minha opinião, correta, mas os dados não o suportam: isso seria uma edição menor. Por outro lado, o segundo valor-p de 0,22 é relativamente mais próximo do seu limite de significância (qualquer que seja). Os autores o interpretam como "não apresentando nenhuma evidência de diferença" que seja consistente com uma interpretação do tipo "não rejeite H_0". Quanto à relevância do artigo, posso dizer muito pouco. Espero que você procure na literatura encontrando discussões mais salientes dos resultados do estudo! No que diz respeito às análises,


1
AdamO, a estatística F mais próxima do nulo é igual à média da distribuição F para um dado grau de liberdade de numerador e denominador? Acho que uma estatística F perto deFk

@ Alexis Obrigado por apontar as propriedades do teste F. Sem conhecer os graus de liberdade, é difícil para mim comentar de forma inteligente sobre o teste. Talvez eu devesse revisar a resposta para apontar apenas para os valores- . De qualquer forma, o ponto principal da minha resposta é que não podemos sustentar as duas hipóteses μ = μ 0pμ=μ0μμ0

Claro! (e +1 se isso não estiver claro) Mas, falando sério, você deve conhecer os testes de equivalência: eles surgiram na epidemiologia clínica e na bioestatística (uma herança honrosa para o campo!), mas são de importância geral para a inferência freqüentista. :)
Alexis

1
@GermanDemidov Eu adotei uma linha dura sobre esses assuntos: acho que análises complicadas não devem ser consideradas se seus efeitos não puderem ser interpretados. Eles fazem ter uma interpretação. A Survival Analysis 2nd ed de Hosmer, Lemeshow, May possui um capítulo inteiro (4) dedicado à interpretação dos resultados do modelo de Cox. A deficiência de testes, como Shapiro, é melhor tratada com plotagens (isso geralmente impede o teste em si). As estatísticas de reamostragem fornecem um meio poderoso para calcular ICs sob uma ampla variedade de condições de modelagem, mas exigem que a teoria do som seja usada corretamente.
Adamo

3
αH0

12

H0H0HAHA

No entanto, nós podemos reconhecer que há diferentes tipos de hipótese nula:

  • H0:θθ0H0:θθ0

  • H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+kH0+:θi=θj;i,j{1,2,k};  and ij

  • H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

[tost]H0+H0+, é porque não há um efeito real ou porque o tamanho da sua amostra era muito pequeno e seu teste é insuficiente? Os testes de relevância abordam esses problemas de frente.

Existem algumas maneiras de executar testes de equivalência (independentemente de alguém estar combinando com testes de diferença):

  • Dois testes unilaterais (TOST) traduzem a hipótese nula negativista geral expressa acima em duas hipóteses nulas unilaterais específicas:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Testes uniformemente mais poderosos para equivalência, que tendem a ser muito mais sofisticados em termos aritméticos do que o TOST. Wellek é a referência definitiva para estes.
  • Uma abordagem de intervalo de confiança, acredito primeiro motivada por Schuirman e refinada por outras pessoas, como Tryon.


Referências Reagle, DP e Vinod, HD (2003). Inferência para a teoria negativista usando regiões de rejeição numericamente computadas . Estatística Computacional e Análise de Dados , 42 (3): 491–512.

Schuirmann, DA (1987). Uma comparação do procedimento de dois testes unilaterais e a abordagem de poder para avaliar a equivalência da biodisponibilidade média . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.

Tryon, WW e Lewis, C. (2008). Um método de intervalo de confiança inferencial para estabelecer equivalência estatística que corrige o fator de redução de Tryon (2001) . Psychological Methods , 13 (3): 272–277.

Tryon, WW e Lewis, C. (2009). Avaliando proporções independentes para diferença estatística, equivalência, indeterminação e diferença trivial usando intervalos de confiança inferenciais . Jornal de Estatísticas Educacionais e Comportamentais , 34 (2): 171–189.

Wellek, S. (2010). Testando hipóteses estatísticas de equivalência e não inferioridade . Chapman e Hall / CRC Press, segunda edição.


1
Quem quer que tenha sido menos votado em mim deve dar um feedback sobre o porquê: deve ficar claro que eu forneço respostas detalhadas e sou sensível às sugestões.
Alexis

9

Você está se referindo à prática padrão de inferência ensinada nos cursos de estatística:

  1. H0 0,Huma
  2. definir o nível de significância α
  3. compare o valor p com α
  4. H0 0HumaH0 0 "

Isso é bom e é usado na prática. Atrevo-me a adivinhar que esse procedimento pode ser obrigatório em algumas indústrias regulamentadas, como as farmacêuticas.

No entanto, essa não é a única maneira de aplicar estatísticas e inferência em pesquisas e práticas. Por exemplo, dê uma olhada neste artigo : "Observação de uma nova partícula na busca pelo bóson do Modelo Padrão Higgs com o detector ATLAS no LHC". O artigo foi o primeiro a apresentar a evidência da existência do bóson de Higgs, no chamado experimento ATLAS. Foi também um daqueles artigos em que a lista de autores é tão longa quanto seu conteúdo real :)

  • H0 0 nem Huma. O termo "hipótese" é usado, e você poderia adivinhar qual era oH0 0 lendo o texto.
  • Eles usam o termo "significado", mas não como αlimiar de significância na inferência "padrão". Eles simplesmente expressam a distância em desvios padrão, por exemplo, "os significados locais observados para mH = 125 GeV são 2,7σ"
  • eles apresentam valores p "brutos" e não os executam nas comparações "rejeitar / falhar em rejeitar" com níveis de significância α, como escrevi anteriormente, eles nem usam o último
  • eles apresentam intervalos de confiança em níveis usuais de confiança, como 95%

Eis como a conclusão é formulada: "Esses resultados fornecem evidências conclusivas para a descoberta de uma nova partícula com massa 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV". As palavras "stat" se referem a estatísticas e "sys" a incertezas sistemáticas.

Portanto, como você vê, nem todo mundo faz o procedimento de quatro etapas que descrevi no início desta resposta. Aqui, os pesquisadores mostram o valor-p sem pré-estabelecer o limiar, ao contrário do que é ensinado nas aulas de estatística. Em segundo lugar, eles não "rejeitam / deixam de rejeitar" a dança, pelo menos formalmente. Eles vão direto ao ponto e dizem "aqui está o valor p, e é por isso que dizemos que encontramos uma nova partícula com 126 GeV de massa".

Nota importante

Os autores do artigo de Higgs ainda não declararam o bóson de Higgs. Eles apenas afirmaram que a nova partícula foi encontrada e que algumas de suas propriedades, como uma massa, são consistentes com o bóson de Higgs.

Demorou alguns anos para reunir evidências adicionais antes de se estabelecer que a partícula é realmente o bóson de Higgs. Veja este post do blog com uma discussão inicial dos resultados. Os físicos passaram a verificar propriedades diferentes, como rotação zero. E enquanto as evidências foram reunidas em algum momento, o CERN declarou que a partícula é o bóson de Higgs.

Por que isso é importante? Porque é impossível banalizar o processo de descoberta científica para algum procedimento rígido de inferência estatística. A inferência estatística é apenas uma ferramenta usada.

Quando o CERN procurava essa partícula, o foco estava em encontrá-la. Esse era o objetivo final. O físico tinha uma ideia para onde olhar. Uma vez que encontraram um candidato, eles se concentraram em provar que é esse. Eventualmente, a totalidade das evidências, nem um único experimento com valor-p e significância, convenceu a todos de que encontramos a partícula. Inclua aqui todo o conhecimento prévio e o modelo padrão . Esta não é apenas uma inferência estatística, o método científico é mais amplo que isso.


uau, sua resposta é ótima! Este é realmente um bom exemplo. Espero que no máximo 10 anos os cientistas da vida também cheguem a esse estilo de relatório!
German Demidov

5

Existem maneiras de abordar isso que não dependem dos cálculos de energia (ver Wellek, 2010). Em particular, você também pode testar se rejeita o nulo de que o efeito é de uma magnitude significativa a priori .

Daniël Lakens defende nessa situação o teste de equivalência. Lakens, em particular, usa " TOST " (dois testes unilaterais) para comparações médias, mas existem outras maneiras de obter a mesma idéia.

Em TOST, você testa um nulo composto: a hipótese nula unilateral de que seu efeito é mais negativo do que a menor diferença negativa de interesse e o nulo de que seu efeito é mais positivo do que a menor diferença positiva de interesse. Se você rejeitar os dois, poderá alegar que não há diferença significativa. Observe que isso pode acontecer mesmo que o efeito seja significativamente diferente de zero, mas em nenhum caso exige o endosso do nulo.

Lakens, D. (2017). Testes de equivalência: uma cartilha prática para testes t , correlações e metanálises . Ciências Sociais Psicológicas e da Personalidade , 8 (4), 355-362.

Wellek, S. (2010). Testando hipóteses estatísticas de equivalência e não inferioridade . Chapman e Hall / CRC Press, segunda edição.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.