Limite de erro familiar: A reutilização de conjuntos de dados em diferentes estudos de perguntas independentes leva a vários problemas de teste?

Se uma equipe de pesquisadores realiza vários testes (hipóteses) em um determinado conjunto de dados, há um volume de literatura afirmando que eles devem usar alguma forma de correção para vários testes (Bonferroni, etc.), mesmo que os testes sejam independentes. Minha pergunta é a seguinte: essa mesma lógica se aplica a várias equipes testando hipóteses no mesmo conjunto de dados? Disse de outra maneira: qual é a barreira para os cálculos de erros em família? Os pesquisadores devem limitar-se a reutilizar conjuntos de dados apenas para exploração?

hypothesis-testing multiple-comparisons

— toypajme
fonte

Respostas:

Não concordo plenamente com o @fcoppens jump de reconhecer a importância da correção de múltiplas hipóteses em uma única investigação e afirmar que "pelo mesmo raciocínio, o mesmo vale se várias equipes realizarem esses testes".

Não há dúvida de que quanto mais estudos forem realizados e mais hipóteses forem testadas, mais erros do tipo I ocorrerão. Mas acho que há uma confusão aqui sobre o significado das taxas de "erro familiar" e como elas se aplicam no trabalho científico real.

Primeiro, lembre-se de que correções de testes múltiplos geralmente surgiam em comparações post-hoc para as quais não havia hipóteses pré-formuladas. Não está absolutamente claro que as mesmas correções são necessárias quando há um pequeno conjunto predefinido de hipóteses.

Segundo, a "verdade científica" de uma publicação individual não depende da verdade de cada declaração individual da publicação. Um estudo bem elaborado aborda uma hipótese científica geral (em oposição à estatística) de muitas perspectivas diferentes e reúne diferentes tipos de resultados para avaliar a hipótese científica . Cada resultado individual pode ser avaliado por um teste estatístico.

No entanto, pelo argumento de @fcoppens, se um desses testes estatísticos individuais cometer um erro do tipo I, isso levará a uma "crença falsa da 'verdade científica'". Isto está simplesmente errado.

A "verdade científica" da hipótese científica em uma publicação, em oposição à validade de um teste estatístico individual, geralmente vem de uma combinação de diferentes tipos de evidência. A insistência em vários tipos de evidência torna a validade de uma hipótese científica robusta aos erros individuais que inevitavelmente ocorrem. Ao relembrar minhas 50 publicações científicas, seria difícil encontrar alguma que permaneça tão perfeita em todos os detalhes como a @fcoppens parece insistir. No entanto, eu estou semelhante duramente pressionado para encontrar qualquer onde o científicahipótese estava completamente errada. Incompleto, talvez; irrelevante pelos desenvolvimentos posteriores no campo, certamente. Mas não "errado" no contexto do estado do conhecimento científico da época.

Terceiro, o argumento ignora os custos de cometer erros do tipo II. Um erro do tipo II pode fechar campos inteiros de pesquisas científicas promissoras. Se as recomendações do @fcoppens fossem seguidas, as taxas de erro do tipo II aumentariam enormemente, em detrimento do empreendimento científico.

Finalmente, é impossível seguir a recomendação na prática. Se eu analisar um conjunto de dados publicamente disponíveis, talvez eu não tenha como saber se alguém os usou ou com qual finalidade. Não tenho como corrigir os testes de hipóteses de ninguém. E, como argumentei acima, não deveria.

— EdM
fonte

Eu dei uma recompensa à pergunta porque queria trazê-la para a frente. A razão pela qual eu queria fazer isso era que eu acho que não recebe atenção suficiente e isso e que - aparentemente, como experimentei com a minha resposta - não há mais 'discussão' sobre isso. Como mostra, pode ser uma discussão interessante, então você recebe um (+1)

@fcoppens obrigado por trazer esse "upfront"

— EdM

Desde este post, me deparei com um ótimo artigo que aborda esse tópico também por Salzberg chamado "Comparando Classificadores: Armadilhas a Evitar e uma Abordagem Recomendada" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing. pdf ). Eu aprecio a discussão. Esse tipo de pergunta traz à tona a divisão entre estatística e aprendizado de máquina / outros campos aplicados discutidos neste post: stats.stackexchange.com/questions/1194/… ....

— toypajme

Um artigo de Breiman também aborda este tópico: projecteuclid.org/euclid.ss/1009213726 . Espero que esses trabalhos possam servir como uma referência fácil para aqueles que estão interessados na pesquisa atual e nas discussões publicadas sobre esse tópico.

— toypajme

α = 0.05

$\alpha=0.05$

$\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

$H_0^{(1)}$ $\alpha=5\%$

$1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

No teste de hipótese estatística, só é possível encontrar evidência estatística para a hipótese alternativa, rejeitando o nulo; a rejeição do nulo nos permite concluir que há evidências a favor da hipótese alternativa. (veja também O que se segue se não conseguirmos rejeitar a hipótese nula? ).

Portanto, uma falsa rejeição do nulo nos fornece evidências falsas, assim uma crença falsa da "verdade científica". É por isso que essa inflação do tipo I (a quase duplicação do erro do tipo I) deve ser evitada; erros mais altos do tipo I implicam mais crenças falsas de que algo é cientificamente comprovado . Portanto, as pessoas 'controlam' o tipo Ierror em nível familiar.

$5\%$

Pelo mesmo raciocínio, o mesmo vale se várias equipes executarem esses testes (nos mesmos dados).

Obviamente, as descobertas acima só são válidas se as equipes trabalharem nos mesmos dados . O que é diferente quando eles trabalham em amostras diferentes?

$\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

$o$ $1.96\sigma$ $-1.96\sigma$

$5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Portanto, se usarmos os mesmos dados, pode ser que as conclusões dos testes sejam baseadas em uma amostra desenhada com '' azar ''. Com outra amostra, o contexto é diferente.

— Comunidade
fonte

Não sou fã de usar "provas" com relação a evidências científicas.

— Alexis

@ Alexis: é certamente porque o inglês não é minha língua nativa, mas eu pensei que 'evidência' e 'prova' são mais ou como sinônimo, mas isso não parece ser o caso?

A "prova" formal, na minha opinião, pertence à matemática. Ou, menos formalmente, pertence à jurisprudência. Para mim, a prova não pertence à ciência, porque isso implica o fim da investigação e o início do dogma, e a ciência é fundamentalmente sobre a investigação. Em inglês (e nos EUA), por exemplo, temos um jogo retórico no qual indivíduos anti-evolução dizem "a evolução biológica é apenas uma teoria e não foi comprovada cientificamente ". Obviamente, o truque é fazer os ouvintes esquecerem que a ciência nunca prova, apenas fornece evidências.

— Alexis18