Implicações do debate atual sobre significância estatística


10

Nos últimos anos, vários estudiosos levantaram um problema prejudicial do teste de hipóteses científicas, apelidado de "grau de liberdade do pesquisador", o que significa que os cientistas têm inúmeras opções a fazer durante suas análises que têm como objetivo encontrar valores de p <5%. Essas opções ambíguas são, por exemplo, qual caso a ser incluído, qual caso é categorizado como externo, executando inúmeras especificações de modelos até que algo apareça, não publique resultados nulos etc. (O artigo que provocou esse debate em psicologia está aqui , veja um artigo popular do Slate e um debate de acompanhamento de Andrew Gelman aqui , e a revista Time também aborda esse tópico aqui .)

Primeiro , uma pergunta de esclarecimento:

A revista Time escreveu:

"Um poder de 0,8 significa que das dez hipóteses verdadeiras testadas, apenas duas serão descartadas porque seus efeitos não são detectados nos dados;"

Não tenho certeza de como isso se encaixa na definição da função de poder que encontrei no livro, que é a probabilidade de rejeitar o nulo como uma função do parâmetro . Com θ diferente , temos poder diferente, por isso não entendo bem a citação acima.θθ

Segundo , algumas implicações da pesquisa:

  1. No meu campo da ciência política / economia, os estudiosos simplesmente usam todos os dados disponíveis por ano. Portanto, não devemos nos preocupar com a manipulação de amostras aqui?

  2. O problema de executar vários testes, mas reportar apenas um modelo, pode ser corrigido simplesmente pelo fato de alguém na disciplina testar novamente seu trabalho e derrubá-lo imediatamente por não ter resultados robustos? Antecipando isso, é mais provável que os estudiosos da minha área incluam uma robustness checkseção, na qual mostram que várias especificações de modelo não alteram o resultado. Isso é suficiente?

  3. Andrew Gelman e outros argumentam que, independentemente dos dados, sempre seria possível encontrar e publicar algum "padrão" que não existe realmente. Mas isso não deve ser uma preocupação, dado o fato de que qualquer "padrão" empírico deve ser apoiado por uma teoria, e as teorias rivais dentro de uma disciplina se envolverão apenas em um debate / corrida para descobrir qual campo é capaz de encontrar mais "padrões". em vários lugares. Se um padrão for realmente falso, a teoria por trás será rapidamente derrubada quando não houver padrão semelhante em outras amostras / configurações. Não é assim que a ciência progride?

  4. Supondo que a tendência atual dos periódicos para resultado nulo realmente floresça, existe uma maneira de agregar todos os resultados nulos e positivos e fazer uma inferência sobre a teoria que todos eles tentam testar?


Veja também "Testes de Teoria em Psicologia e Física: Um Paradoxo Metodológico" . A "hipótese nula" é sempre falsa para o seu campo. Mesmo com práticas de pesquisa adequadas, testes de significância e testes de hipóteses são provavelmente inapropriados.
Flask

Sua pergunta 1 está em conflito com a pergunta 3. Na política / economia, existem outras amostras / configurações disponíveis ou não?
Flask

Respostas:


11

Em vez de usar valores-p para avaliar reivindicações, devemos seguir o conselho de Robert Abelson e usar os critérios MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Para mais informações sobre Abelson, veja minha resenha de seu livro

E devemos nos concentrar nos tamanhos dos efeitos, e não nos valores de p na saída estatística (com a possível exceção de alguns tipos de mineração de dados, nos quais não sou especialista em nada). E os tamanhos dos efeitos devem ser julgados no contexto:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Um estatístico / analista de dados não deve ser uma pessoa estranha, usada como uma caixa preta na qual os dados são colocados e retirados dos quais os valores de p são obtidos; ele / ela deve ser um colaborador de pesquisa destinada a apresentar um argumento razoável sobre o significado de algum conjunto de dados no contexto de algum campo, dadas as teorias atuais (ou a falta delas) e as evidências atuais (ou a falta delas).

Infelizmente, essa abordagem requer reflexão por parte dos pesquisadores substantivos, do analista de dados e de quem revisa os resultados (seja um chefe de cabelos pontudos, um comitê de dissertação, um editor de periódico ou quem quer que seja). Estranhamente, até os acadêmicos parecem avessos a esse tipo de pensamento.

Para mais informações, aqui está um artigo que escrevi publicado no Sciences360.


4
+1 Enquanto eu certamente concordo com você, posso imaginar que dizer 'minha reivindicação é apoiada por mágica' nem sempre pode ser útil :-)
Marc Claesen

11
Sim, você precisaria explicá-lo, mas, se o fizesse, acho que poderia funcionar: "Esses são grandes efeitos que têm poucas exceções, afetam um grande número de pessoas, são interessantes porque XXXX e são credíveis porque XXXX" pode funcionar. Eu não vi isso tentar. :-)
Peter Flom - Reinstala Monica

11
Sim; uma afirmação é "credível" se houver uma teoria que diga como isso poderia acontecer; se for replicado e assim por diante. É menos credível se não houver explicação física ou outra explicação teórica. Quanto menos credível for uma reivindicação, mais evidências serão necessárias.
Peter Flom - Restabelece Monica

2
A credibilidade na ciência deve ser medida pela forma como as teorias preveem fenômenos não utilizados no desenvolvimento da teoria. Ao avaliar se as previsões foram boas, a credibilidade requer replicação por pesquisadores independentes. Há toneladas de evidências empíricas de que o teste de significância e o teste de hipóteses parecem desencorajar ambos os comportamentos, ao invés disso, incentivando as atividades contraproducentes do viés de publicação e do "p-hacking" de um corte "significante" arbitrário.
Flask

11
@Flask - Eu diria que os valores-p não são necessariamente o problema, mais do que usar testes de hipóteses fracos são o problema. A física também usa valores-p, mas com hipóteses que levam a previsões pontuais (ou seja, uma hipótese nula real). Encontrar um "efeito positivo" é basicamente inútil para a construção da teoria - você precisa fazer uma estimativa pontual para confirmar adequadamente a teoria.
probabilityislogic

3

O campo da ciência estatística abordou essas questões desde o início. Eu continuo dizendo que o papel do estatístico é garantir que a taxa de erro do tipo 1 permaneça fixa. Isso implica que o risco de tirar conclusões falsas positivas não pode ser eliminado, mas pode ser controlado. Isso deve chamar nossa atenção para o volume extremamente grande de pesquisas científicas que estão sendo conduzidas, e não para a filosofia e ética da prática estatística geral. Para cada resultado incrível (não creditável) que aparece na mídia (ou na política do governo), pelo menos 19 outros resultados não creditáveis ​​foram abatidos por suas descobertas nulas.

De fato, se você for, digamos, clinictrials.gov, observará que existem (para quase qualquer indicação de doença) bem mais de 1.000 ensaios clínicos para agentes farmacêuticos em andamento nos EUA neste exato momento. Isso significa que, com uma taxa de erro falso positivo de 0,001, em média, pelo menos 1 medicamento será colocado nas prateleiras que não tiverem efeito. A validade de 0,05 como um limite validado para significância estatística foi contestada repetidamente. Ironicamente, são apenas os estatísticos que se sentem desconfortáveis ​​com o uso de uma taxa de erro falso positivo de 1/20, enquanto os interessados ​​financeiros (sejam eles PIs ou Merck) perseguem crenças tenazmente, independentemente de resultados in vitro, provas teóricas ou força de evidências anteriores. Honestamente, essa tenacidade é uma qualidade pessoal bem-sucedida e louvável de muitos indivíduos que são bem-sucedidos em funções não estatísticas. Eles geralmente estão sentados acima dos estatísticos, em seus respectivos totens, que tendem a alavancar essa tenacidade.

Acho que a cotação da Time que você apresentou está completamente errada. Poder é a probabilidade de rejeitar a hipótese nula, uma vez que é falsa. Isso depende mais importante de quão "falsa" é a hipótese nula (que por sua vez depende de um tamanho de efeito mensurável). Eu raramente falo de poder fora do contexto do efeito que consideraríamos "interessante" detectar. (por exemplo, uma sobrevida de quatro meses após o tratamento quimioterápico do câncer de pâncreas no estágio 4 não é interessante, portanto, não há razão para recrutar 5.000 indivíduos para um estudo de fase 3).

Para responder às perguntas que você fez

  1. ???

  2. A multiplicidade é difícil porque não leva a uma regra de decisão óbvia sobre como lidar com os dados. Por exemplo, suponha que estejamos interessados ​​em um teste simples de diferença média. Apesar dos infinitos protestos de meus colegas, é fácil mostrar que o teste t está bem calibrado para detectar diferenças na média, independentemente da distribuição amostral dos dados. Suponha que seguimos alternadamente o caminho deles. Eles começariam testando a normalidade usando alguma variante de um teste distributivo bem conhecido (por exemplo, calibração do qqplot). Se os dados parecessem suficientemente não normais, eles perguntariam se os dados seguem alguma transformação bem conhecida e depois aplicariam uma transformação Box Cox para determinar uma transformação de potência (possivelmente logarítmica) que maximiza a entropia. Se um valor numérico óbvio aparecer, eles usarão essa transformação. Caso contrário, eles usarão o teste Wilcoxon "livre de distribuição". Para esta sequência ad-hoc de eventos, não posso começar a esperar como calcular a calibração e a potência para um teste simples de diferenças médias quando o teste t simples e estúpido seria suficiente. Suspeito que atos estúpidos como esse possam estar matematicamente ligados à estimativa supereficiente de Hodge: estimadores que são de alta potência sob uma hipótese específica que queremos que seja verdade. No entanto, esse processo é s estimativa supereficiente: estimadores que são de alta potência sob uma hipótese específica, queremos ser verdadeiros. No entanto, esse processo é s estimativa supereficiente: estimadores que são de alta potência sob uma hipótese específica, queremos ser verdadeiros. No entanto, esse processo énão estatístico porque a taxa de erro falso positivo não foi controlada.

  3. O conceito de que as tendências podem ser "descobertas" erroneamente em qualquer conjunto aleatório de dados provavelmente remonta ao artigo bem escrito de Martin chamado "Grade Estatística de Munchaesen" . Esta é uma leitura muito esclarecedora e remonta a 1984, antes de o bezerro de ouro do aprendizado de máquina nascer para nós como o conhecemos atualmente. De fato, uma hipótese corretamente declarada é falsificável, mas os erros do tipo 1 tornaram-se muito mais caros em nossa sociedade orientada por dados do que jamais foram antes. Considere, por exemplo, a evidência falsificada da pesquisa anti-vacina que levou a uma sequência maciça de mortes por coqueluche. Os resultados que rejeitaram a defesa pública de vacinas foram vinculados a um único estudo(que, embora errado, não foi confirmado por pesquisa externa). Existe um ímpeto ético para conduzir resultados e relatar a força da evidência de honestidade e bondade. Quão forte é a evidência? Tem pouco a ver com o valor-p que você obtém, mas o valor-p que você disse que chamaria de significativo. E lembre-se, falsificar seus dados altera o valor de p, mesmo quando o teste confirmatório final relata algo diferente (geralmente muito menor).

  4. SIM! Você pode ver claramente nas meta-análises publicadas por periódicos como o relatório Cochrane que a distribuição dos resultados dos testes parece mais bimodal que o noraml, com apenas resultados positivos e negativos entrando em periódicos. Esta evidência é absolutamente maluca e confusa para qualquer pessoa na prática clínica. Se, em vez disso, publicarmos resultados nulos (provenientes de estudos cujos resultados nos interessariam, independentemente do que eles venham a ser ), podemos esperar que as meta-análises realmente representem evidências significativas e representativas.


11
Em " Probabilidade como base para a ação", William Deming faz uma distinção entre estudos "enumerativos" e "analíticos". Ele argumenta que os resultados de cada experimento estão condicionados ao ambiente exato do experimento; portanto, os estatísticos tentam controlar a "taxa de erro tipo I" sempre serão compensados ​​por uma quantidade desconhecida quando um tratamento é aplicado sob condições diferentes .
Flask

@Flask Da mesma forma, nenhum procedimento mecânico na estação espacial internacional é perfeitamente calibrado, mas a atenção dos engenheiros aos detalhes e a minimização de erros garantiram que não encontrássemos uma Oddity Espacial em nossas mãos.
8113 AdamO

Os engenheiros (espero) testam os componentes sob todas as condições esperadas e adicionam margem de erro extra com base nos modelos gerados. Esse é o tipo de comportamento preconizado por Deming e difere de tentar tirar conclusões sobre o desempenho futuro de um tratamento ou relação entre fatores e avaliar o erro de amostragem de apenas um estudo. É uma distinção muito interessante que não vi mencionada em nenhum outro lugar.
Flask

Não acho que seja defensável dizer que "um processo não é estatístico porque a taxa de erro falso positivo não foi controlada". Há muito mais na estatística do que o freqüentismo com seus controles de taxa de erro, e os bits não-freqüentadores são os bits mais úteis para a ciência. Você pode ler meu artigo recentemente publicado sobre o arXived sobre o tema: arxiv.org/abs/1311.0081
Michael Lew

11
@Adamo A ausência de qualquer quantificação de evidência na inferência freqüentista é de fato uma opinião popular entre os bayesianos (e verossimilhantes), mas é bem validada e foi a opinião explicitamente expressa de Neyman e Pearson no primeiro artigo em que eles criaram os métodos freqüentadores! Talvez você devesse ler meu jornal com a mente aberta. A informação está toda lá.
Michael Lew

3

Primeiro, eu não sou estatístico, apenas um pesquisador que pesquisou bastante nos últimos anos para descobrir por que os métodos que observo sendo usados ​​ao meu redor estão tão ausentes e por que há tanta confusão sobre conceitos básicos como "o que é um valor p? " Vou dar a minha perspectiva.

Primeiro, uma pergunta de esclarecimento:

A revista Time escreveu:

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

dados;"

Não tenho certeza de como isso se encaixa na definição da função de poder que encontrei no livro, que é a probabilidade de rejeitar o nulo como uma função do parâmetro θ. Com θ diferente, temos poder diferente, por isso não entendo bem a citação acima.

Potência é uma função de θ, variação e tamanho da amostra. Não sei ao certo qual é a confusão. Também para muitos casos em que o teste de significância é usado, a hipótese nula de média1 = média2 é sempre falsa. Nesses casos, o significado é apenas uma função do tamanho da amostra. Por favor, leia "Testes teóricos em psicologia e física: um paradoxo metodológico" de Paul Meehl que esclareceu muitas coisas para mim e nunca vi uma resposta adequada. Paul Meehl tem alguns outros documentos sobre isso que você pode encontrar pesquisando o nome dele.

No meu campo da ciência política / economia, os estudiosos simplesmente usam todos os dados disponíveis por ano. Portanto, não devemos nos preocupar com a manipulação de amostras aqui?

Se você ler o artigo de Simmons 2011, essa é apenas uma das técnicas de "p-hacking" mencionadas. Se é verdade que existe apenas um conjunto de dados e ninguém escolhe amostras seletivas, acho que não há espaço para aumentar o tamanho da amostra.

O problema de executar vários testes, mas reportar apenas um modelo, pode ser corrigido simplesmente pelo fato de alguém na disciplina testar novamente seu trabalho e derrubá-lo imediatamente por não ter resultados robustos? Antecipando isso, é mais provável que os estudiosos da minha área incluam uma seção de verificação de robustez, na qual mostram que várias especificações de modelo não alteram o resultado. Isso é suficiente?

Se a replicação estivesse ocorrendo sem viés de publicação, não haveria necessidade de "diários do resultado nulo". Eu diria que a seção de verificação de robustez é boa de ter, mas não é suficiente na presença de pesquisadores que não publicam o que consideram resultados nulos. Também não consideraria um resultado robusto apenas porque várias técnicas de análise nos mesmos dados chegaram à mesma conclusão. Um resultado robusto é aquele que faz uma previsão correta de efeito / correlação / etc em novos dados .

Uma replicação não está obtendo p <0,05 nas duas vezes. A teoria deve ser considerada mais robusta se predisse um efeito / correlação / etc diferente do usado no primeiro estudo. Não me refiro à presença de um efeito ou correlação, mas ao valor preciso ou a uma pequena faixa de valores comparada a uma possível faixa de valores. A presença de efeito aumentado / diminuído ou correlação positiva / negativa tem 100% de probabilidade de ser verdadeira no caso de a hipótese nula ser falsa. Leia Meehl.

Andrew Gelman e outros argumentam que, independentemente dos dados, sempre seria possível encontrar e publicar algum "padrão" que não existe realmente. Mas isso não deve ser uma preocupação, dado o fato de que qualquer "padrão" empírico deve ser apoiado por uma teoria, e teorias rivais dentro de uma disciplina apenas se engajarão em um debate / corrida para descobrir qual campo é capaz de encontrar mais "padrões". em vários lugares. Se um padrão for realmente falso, a teoria por trás será rapidamente derrubada quando não houver padrão semelhante em outras amostras / configurações. Não é assim que a ciência progride?

A ciência não pode funcionar corretamente se os pesquisadores não publicarem resultados nulos. Também porque o padrão não foi descoberto na segunda amostra / cenário não significa que ele não exista nas condições do estudo inicial.

Supondo que a tendência atual dos periódicos para resultado nulo realmente floresça, existe uma maneira de agregar todos os resultados nulos e positivos e fazer uma inferência sobre a teoria que todos eles tentam testar?

Isso seria uma meta-análise . Não há nada de especial nos resultados nulos nesse caso, exceto que os pesquisadores não os publicam porque os valores-p estavam acima do limiar arbitrário. Na presença de viés de publicação, a meta-análise não é confiável, assim como toda a literatura que sofre de viés de publicação. Embora possa ser útil, a metanálise é muito inferior para avaliar uma teoria do que fazer com que ela faça uma previsão precisa que é então testada. O viés de publicação não importa tanto quanto as novas previsões se concretizam e são replicadas por grupos independentes.


Minha confusão sobre a cotação de tempo é que a função power não deve ser restrita a quando o nulo for verdadeiro, como implica a cotação. O domínio da função power é todo o espaço de parâmetros, se não me engano. E, portanto, não existe um "poder 0,8" específico que se possa atribuir a um teste.
Heisenberg

Concordo plenamente com você no ponto em que uma teoria precisa ser testada com novos dados. Mas no caso da ciência política ou da macroeconomia, onde só temos tantos países e tantos anos, o esforço é necessariamente frustrado?
precisa

@ A cada segundo, há novos dados a serem adicionados. A teoria deve prever o futuro. Na astronomia havia predizer as posições dos cometas, por exemplo. Além disso, você calcula a potência para um valor de parâmetro esperado. Portanto, no caso da citação, eles se refeririam ao poder de testar uma teoria que previa uma correlação de pelo menos r = 0,5.
Flask

Esclarecer r = 0,5 seria um exemplo de uma correlação prevista por uma teoria.
Flask

2

Eu diria simplesmente que o teste de hipótese nula é realmente apenas sobre a hipótese nula. E, geralmente, a hipótese nula geralmente não é de interesse e pode até não ser "o status quo" - especialmente no tipo de regressão do teste de hipótese. Freqüentemente, nas ciências sociais, não existe status quo; portanto, a hipótese nula pode ser bastante arbitrária. Isso faz uma enorme diferença para a análise, pois o ponto de partida é indefinido; portanto, diferentes pesquisas começam com diferentes hipóteses nulas, provavelmente com base em quaisquer dados disponíveis. Compare isso com algo como as leis do movimento de Newton - faz sentido ter isso como hipótese nula e tente encontrar melhores teorias a partir deste ponto de partida.

Além disso, os valores de p não calculam a probabilidade correta - não queremos saber sobre probabilidades de cauda, ​​a menos que a hipótese alternativa seja mais provável à medida que você avança nas caudas. O que você realmente quer é o quão bem a teoria prevê o que realmente foi visto. Por exemplo, suponha que prevejo que haja 50% de chance de um "banho de luz", e meu concorrente prevê que há 75% de chance. Isso acaba sendo correto, e observamos um banho leve. Agora, ao decidir qual meteorologista está correto, você não deve dar crédito adicional à minha previsão por dar 40% de chance de uma "tempestade" ou tirar o crédito do meu concorrente por dar uma chance de 0% à "tempestade".

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

1n+1=0.00000000960.00000011

Isso é especialmente verdadeiro no exemplo que Gelman critica - houve realmente apenas uma hipótese testada, e não se pensou muito em a) quais são as explicações alternativas (particularmente sobre confusão e efeitos não controlados), b) quanto são as alternativas apoiadas por pesquisas anteriores e, mais importante, c) que previsões eles fazem (se houver) que são substancialmente diferentes do nulo?

H¯H1,,HKHk0.010.1

K

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.