Obviamente, isso seria um pesadelo absoluto na prática, mas suponha que isso possa ser feito: designamos um sultão estatístico e todos os que executam um teste de hipótese relatam seus valores- brutos a esse déspota. Ele realiza algum tipo de correção (literalmente) global de comparações múltiplas e responde com as versões corrigidas.p
Isso daria início a uma era de ouro da ciência e da razão? Não, provavelmente não.
Vamos começar considerando um par de hipóteses, como em um teste . Medimos algumas propriedades de dois grupos e queremos distinguir entre duas hipóteses sobre essa propriedade:
Em uma amostra finita, é improvável que os meios sejam exatamente iguais, mesmo que seja realmente verdadeiro: erro de medição e outras fontes de variabilidade podem forçar valores individuais. No entanto, o
tH0 0:HUMA: Os grupos têm a mesma média. Os grupos têm meios diferentes.
H0 0H0 0a hipótese é, em certo sentido, "entediante", e os pesquisadores geralmente se preocupam em evitar uma situação "falso-positiva", na qual afirmam ter encontrado uma diferença entre os grupos onde realmente não existe. Portanto, chamamos os resultados apenas de "significativos" se parecerem improváveis sob a hipótese nula e, por convenção, esse limite de improvabilidade é fixado em 5%.
Isso se aplica a um único teste. Agora, suponha que você decida executar vários testes e esteja disposto a aceitar uma chance de 5% de aceitar por engano para cada um. Com testes suficientes, você quase certamente começará a cometer erros, e muitos deles.H0 0
As várias abordagens de correções múltiplas têm como objetivo ajudá-lo a retornar a uma taxa de erro nominal que você já escolheu tolerar para testes individuais. Eles fazem isso de maneiras ligeiramente diferentes. Os métodos que controlam a Taxa de erro da família Wise , como os procedimentos Bonferroni , Sidak e Holm , dizem "Você queria uma chance de 5% de cometer um erro em um único teste, para garantir que não haja mais que 5" % de chance de cometer erros em todos os seus testes. " Métodos que controlam a taxa de descoberta falsaem vez disso, diga "Parece que você está errado em errar até 5% do tempo com um único teste, portanto, garantiremos que não mais de 5% de suas 'chamadas' estejam erradas ao fazer vários testes". (Veja a diferença?)
Agora, suponha que você tentou controlar a taxa de erro familiar de
todos os testes de hipótese já executados. Você está basicamente dizendo que deseja uma chance <5% de rejeitar falsamente qualquer hipótese nula, jamais. Isso estabelece um limite impossivelmente rigoroso e a inferência seria efetivamente inútil, mas há uma questão ainda mais premente: sua correção global significa que você está testando "hipóteses compostas" absolutamente absurdas, como
H1:Droga XYZ altera a contagem de células T ∧Uvas crescem melhor em alguns campos ∧… ∧ … ∧… ∧ … ∧Homens e mulheres comem quantidades diferentes de sorvete
Com as correções da taxa de descoberta falsa, o problema numérico não é tão grave, mas ainda é uma bagunça filosoficamente. Em vez disso, faz sentido definir uma "família" de testes relacionados, como uma lista de genes candidatos durante um estudo genômico ou um conjunto de caixas de frequência de tempo durante uma análise espectral. Adaptar sua família a uma pergunta específica permite que você realmente interprete seu erro do Tipo I de maneira direta. Por exemplo, você pode olhar para um conjunto de valores p corrigidos pela FWER a partir de seus próprios dados genômicos e dizer "Há uma chance <5% de que qualquer um desses genes seja falso-positivo". Isso é muito melhor do que uma garantia nebulosa que cobre inferências feitas por pessoas com as quais você não se importa em tópicos que não lhe interessam.
O outro lado disso é que a escolha apropriada de "família" é discutível e um pouco subjetiva (todos os genes são uma família ou posso apenas considerar as cinases?), Mas deve ser informada pelo seu problema e não acredito em ninguém defendeu seriamente a definição de famílias quase tão extensivamente.
E Bayes?
A análise bayesiana oferece uma alternativa coerente a esse problema - se você estiver disposto a se afastar um pouco da estrutura de erro Frequentist Tipo I / Tipo II. Começamos com um pouco de não comprometimento antes de ... bem ... tudo. Toda vez que aprendemos algo, essa informação é combinada com o anterior para gerar uma distribuição posterior, que por sua vez se torna o anterior para a próxima vez que aprendemos algo. Isso fornece uma regra de atualização coerente e você pode comparar diferentes hipóteses sobre coisas específicas, calculando o fator Bayes entre duas hipóteses. Presumivelmente, você poderia levar em consideração grandes partes do modelo, o que nem tornaria isso particularmente oneroso.
Há um meme persistente de que os métodos bayesianos não exigem correções de comparações múltiplas. Infelizmente, as probabilidades posteriores são apenas mais uma estatística de teste para os freqüentadores (ou seja, pessoas que se preocupam com erros do tipo I / II). Eles não têm propriedades especiais que controlam esses tipos de erros (por que eles teriam?) Assim, você está de volta a um território intratável, mas talvez em terreno um pouco mais de princípios.
O contra-argumento bayesiano é que devemos nos concentrar no que podemos saber agora e, portanto, essas taxas de erro não são tão importantes.
Sobre Reprodutibilidade
Parece que você está sugerindo que a correção incorreta de comparações múltiplas é a razão por trás de muitos resultados incorretos / improdutíveis. Meu senso é que outros fatores têm maior probabilidade de ser um problema. Um exemplo óbvio é que a pressão para publicar leva as pessoas a evitar experimentos que realmente enfatizem suas hipóteses (ou seja, projeto experimental ruim).
Por exemplo, [neste experimento] (parte da iniciativa de reprodutibilidade 6 da Amgen (ir) , verifica-se que os camundongos tinham mutações em outros genes que não o gene de interesse. Andrew Gelman também gosta de falar sobre o Garden of Forking Paths , em que os pesquisadores escolhem um plano de análise (razoável) com base nos dados, mas podem ter feito outras análises se os dados parecerem diferentes, o que aumenta os valores de maneira semelhante a comparações múltiplas, mas é muito mais difícil de corrigir posteriormente. pode também desempenhar um papel, mas meu sentimento (e esperança) é que isso esteja melhorando gradualmente.p