40.000 trabalhos de neurociência podem estar errados

Eu vi esse artigo no Economist sobre um artigo aparentemente devastador [1] lançando dúvidas sobre "algo como 40.000 estudos publicados [fMRI]". O erro, dizem eles, é por causa de "suposições estatísticas erradas". Li o jornal e vejo que isso é parcialmente um problema com várias correções de comparação, mas não sou especialista em ressonância magnética e acho difícil seguir.

Quais são as suposições errôneas sobre as quais os autores estão falando ? Por que essas suposições são feitas? Quais são as maneiras de fazer essas suposições?

Uma parte do cálculo do envelope diz que 40.000 documentos de ressonância magnética têm mais de um bilhão de dólares em financiamento (salário de estudante de graduação, custos operacionais etc.).

[1] Eklund et al., Falha no cluster: por que as inferências de fMRI quanto à extensão espacial aumentaram as taxas de falsos positivos, PNAS 2016

— R Greg Stacey
fonte

Veja também o artigo sobre a ressonância magnética do salmão morto. wired.com/2009/09/fmrisalmon

— Restabelece Monica

É realmente uma linha tênue, especialmente no estudo de neuropatologias, porque você pode restringir totalmente os falsos positivos, tanto quanto quiser, mas na troca você termina com uma enorme incidência de falsos negativos.

— Firebug

Há um pouco de diferença entre os dois: o papel do salmão é uma bela parábola sobre a importância da correção de múltiplas comparações, que todo mundo já deveria estar fazendo. Por outro lado, a questão do PNAS morde as pessoas que estavam tentando fazer "a coisa certa", mas a correção em si foi um pouco instável.

— Matt Krause

Penso que esta é uma ótima pergunta, pois chega ao cerne de várias correções de comparações e suposições-chave na condução desse tipo de análise no contexto de uma veia comum de pesquisa. No entanto, a única pergunta no texto é "alguém com mais conhecimento do que eles deseja comentar sobre isso?" que é um tanto amplo e inespecífico. Se isso pudesse ser focado em um problema estatístico específico no escopo da Central de Ajuda, seria mais adequado para este fórum.

— Reponha Monica

Obrigado. Editei a pergunta para torná-la mais específica. Deixe-me saber se devo editá-lo mais.

— R Greg Stacey

Na figura 40000

As notícias são realmente sensacionalistas, mas o jornal é realmente bem fundamentado. Discussões duraram dias no meu laboratório, apesar de tudo uma crítica realmente necessária que faz com que os pesquisadores examinem seu trabalho. Eu recomendo a leitura do seguinte comentário de Thomas Nichols , um dos autores do artigo "Falha de cluster: por que as inferências de ressonância magnética de fMRI em termos espaciais inflacionaram taxas de falso-positivas" (desculpe pela longa citação).

No entanto, há um número de que me arrependo: 40.000. Ao tentar nos referir à importância da disciplina fMRI, usamos uma estimativa de toda a literatura fMRI como número de estudos impactados por nossos achados. Em nossa defesa, encontramos problemas com a inferência do tamanho do cluster em geral (grave para P = 0,01 CDT, enviesado para P = 0,001), o método de inferência dominante, sugerindo que a maioria da literatura foi afetada. O número na declaração de impacto, no entanto, foi captado pela imprensa popular e alimentou uma pequena tempestade no twitter. Portanto, sinto que é meu dever fazer uma estimativa aproximada de "Quantos artigos nosso trabalho afeta?". Eu não sou um bibliométrico, e esse é realmente um exercício difícil, mas espero que dê uma idéia da ordem de magnitude do problema.

O código de análise (em Matlab) é apresentado abaixo, mas aqui está o que é preciso: com base em alguns cálculos probabilísticos razoáveis, mas talvez em amostras frágeis da literatura, eu estimo que cerca de 15.000 artigos usam inferência de tamanho de cluster com correção para testes múltiplos; destes, cerca de 3.500 usam um CDT de P = 0,01. 3.500 representam cerca de 9% de toda a literatura, ou talvez mais útil, 11% dos artigos que contêm dados originais. (É claro que alguns desses 15.000 ou 3.500 podem usar inferência não paramétrica, mas infelizmente é raro para fMRI - em contraste, é a ferramenta de inferência padrão para análises estruturais de VBM / DTI no FSL).

Eu sinceramente pensei que esse número seria maior, mas não percebi a grande proporção de estudos que nunca usaram nenhum tipo de correção de teste múltiplo. (Não é possível inflacionar significados corrigidos se você não corrigir!) . Esses cálculos sugerem que 13.000 artigos não usaram nenhuma correção de teste múltiplo. É claro que alguns deles podem estar usando regiões de interesse ou análises de sub-volume, mas são poucos os (isto é, resultado do estilo de ensaio clínico) que não têm absolutamente nenhuma multiplicidade. Nosso artigo não é diretamente sobre esse grupo, mas para publicações que usaram a correção de teste múltiplo popular, P <0,001 & k> 10, nosso artigo mostra que essa abordagem tem taxas de erro familiares muito superiores a 50%.

Então, estamos dizendo que 3.500 documentos estão "errados"? Depende. Nossos resultados sugerem que os resultados do CDT P = 0,01 aumentaram os valores de P, mas cada estudo deve ser examinado ... se os efeitos forem realmente fortes, provavelmente não importa se os valores de P são tendenciosos e a inferência científica permanecerá inalterada. Mas se os efeitos forem realmente fracos, os resultados poderão ser consistentes com o ruído . E quanto aos 13.000 trabalhos sem correção, especialmente comuns na literatura anterior? Não, eles também não devem ser descartados imediatamente, mas é necessário um olhar particularmente cansado para esses trabalhos, especialmente quando comparados a novas referências com padrões metodológicos aprimorados.

Ele também inclui esta tabela no final:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

Basicamente, o SPM (Statistical Parametric Mapping, uma caixa de ferramentas para Matlab) é a ferramenta mais amplamente usada para estudos de neurociência de fMRI. Se você verificar o documento, verá que usar um CDT de P = 0,001 (o padrão) para clusters no SPM fornece quase a taxa de erro familiar esperada.

Os autores até preencheram uma errata devido à redação do artigo:

Dada a ampla interpretação errônea de nosso artigo, Eklund et al., Cluster Failure: Por que as inferências de ressonância magnética por extensão espacial aumentaram as taxas de falso positivo, arquivamos uma errata no escritório de redação do PNAS:

Erratas para Eklund et al., Falha no cluster: por que as inferências de fMRI para extensão espacial inflaram taxas de falso positivo. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

Duas frases eram mal formuladas e poderiam facilmente ser mal interpretadas como exagerando nossos resultados.

A última frase da declaração de significância deve ser: "Esses resultados questionam a validade de vários estudos de ressonância magnética e podem ter um grande impacto na interpretação de resultados de neuroimagem fracamente significativos".

A primeira frase após o título “O futuro da fMRI” deveria ter sido: “Devido às práticas lamentáveis de arquivamento e compartilhamento de dados, é improvável que análises problemáticas possam ser refeitas”.

Eles substituem as duas frases que implicitamente equivocam que nosso trabalho afetou todas as 40.000 publicações (consulte Bibliometria da inferência de cluster para obter uma estimativa de quanto da literatura é potencialmente afetada).

Após inicialmente recusar a errata, com o argumento de que estava corrigindo a interpretação e não o fato, o PNAS concordou em publicá-la como a submetemos acima.

No chamado Bug

Algumas notícias também mencionaram um bug como a causa da invalidez dos estudos. De fato, uma das ferramentas da AFNI estava deduzindo inferências e isso foi resolvido após a publicação da pré-impressão no arXiv .

Inferência estatística usada na neuroimagem funcional

A neuroimagem funcional inclui muitas técnicas que visam medir a atividade neuronal no cérebro (por exemplo, fMRI, EEG, MEG, NIRS, PET e SPECT). Estes são baseados em diferentes mecanismos de contraste. A RMf baseia-se no contraste dependente do nível de oxigênio no sangue (BOLD). Na fMRI baseada em tarefas, dado um estímulo, os neurônios no cérebro responsáveis pela recepção dessa estimulação começam a consumir energia e isso desencadeia a resposta hemodinâmica alterando o sinal de ressonância magnética ( ) nas proximidades do micro recrutado -vascularização. $\approx 5\%$

Usando um modelo linear generalizado (GLM), você identifica quais séries temporais do sinal voxel estão correlacionadas com o design do paradigma de seu experimento (geralmente uma série temporal booleana complicada com uma função de resposta hemodinâmica canônica, mas existem variações).

Portanto, este GLM forneceu o quanto cada série temporal voxel se assemelha à tarefa. Agora, digamos que você tenha dois grupos de indivíduos: pacientes e controles normalmente. A comparação das pontuações GLM entre os grupos poderia ser usada para mostrar como a condição dos grupos modula o padrão de "ativação" do cérebro.

A comparação do Voxel entre os grupos é possível, mas devido à função de dispersão de pontos inerente ao equipamento, além de uma etapa de pré-processamento de suavização, não é razoável esperar que os voxels carreguem todas as informações individualmente. A diferença de voxels entre os grupos deve estar, de fato, espalhada pelos voxels vizinhos.

Portanto, é realizada uma comparação em cluster , ou seja, apenas diferenças entre grupos que se formam em clusters são consideradas. Esse limiar de extensão de cluster é a técnica de correção de comparação múltipla mais popular nos estudos de ressonância magnética. O problema está aqui.

O SPM e o FSL dependem da teoria gaussiana de campo aleatório (RFT) para inferência voxelwise e clusterwise corrigida por FWE. No entanto, a inferência RFT em cluster depende de duas suposições adicionais. A primeira suposição é que a suavidade espacial do sinal de fMRI é constante sobre o cérebro, e a segunda suposição é que a função de autocorrelação espacial tem uma forma específica (um exponencial ao quadrado) (30)

No SPM, pelo menos, você deve definir uma taxa FWE nominal e também um limite de definição de cluster (CDT). Basicamente, o SPM encontra voxels altamente correlacionados com a tarefa e, após o limiar com o CDT, os vizinhos são agregados em clusters. Esses tamanhos de clusters são comparados com a extensão esperada do cluster da Random Field Theory (RFT), considerando o conjunto FWER [ 1 ].

A teoria de campos aleatórios requer que o mapa de atividades seja suave, para ser uma boa aproximação da rede aos campos aleatórios. Isso está relacionado à quantidade de suavização aplicada aos volumes. A suavização também afeta a suposição de que os resíduos são normalmente distribuídos, pois a suavização, pelo teorema do limite central, tornará os dados mais gaussianos.

Os autores mostraram em [ 1 ] que os tamanhos esperados de cluster da RFT são realmente pequenos quando comparados com os limites de extensão do cluster obtidos no teste de permutação aleatória (RPT).

Em seu artigo mais recente, os dados do estado de repouso (outra modalidade da ressonância magnética, onde os participantes são instruídos a não pensar em nada em particular) foram usados como se as pessoas executassem uma tarefa durante a aquisição da imagem e a comparação do grupo fosse realizada com voxel e cluster -sensato. A taxa de erro falso positivo observada (ou seja, quando você observa diferenças na resposta do sinal a uma tarefa virtual entre grupos) deve ser razoavelmente menor que a taxa esperada de FWE definida em . Refazer esta análise milhões de vezes em grupos amostrados aleatoriamente com diferentes paradigmas mostrou que as taxas de FWE mais observadas são mais altas do que aceitáveis. $\alpha = 0.05$

@amoeba levantou essas duas questões altamente pertinentes nos comentários:

(1) O Eklund et al. O documento do PNAS fala sobre o "nível nominal de 5%" de todos os testes (veja, por exemplo, linha preta horizontal na Fig. 1). No entanto, o CDT na mesma figura está variando e pode ser, por exemplo, 0,01 e 0,001. Como o limite do CDT se relaciona com a taxa de erro nominal do tipo I? Estou confuso com isso. (2) Você viu a resposta de Karl Friston http://arxiv.org/abs/1606.08199 ? Eu li, mas não tenho muita certeza do que eles estão dizendo: percebo corretamente que eles concordam com Eklund et al. mas diga que esse é um problema "bem conhecido"?

(1) Boa pergunta. Na verdade, revi minhas referências, vamos ver se posso deixar isso mais claro agora. A inferência em termos de cluster é baseada na extensão dos clusters que se formam após a aplicação de um limite primário (o CDT, que é arbitrário ). Na análise secundária, é aplicado um limite no número de voxels por cluster . Esse limite baseia-se na distribuição esperada de extensões de cluster nulas, que podem ser estimadas a partir da teoria (por exemplo, RFT), e define uma FWER nominal. Uma boa referência é [ 2 ].

(2) Obrigado por esta referência, não a vi antes. Flandin e Friston argumentam Eklund et al. corroboraram a inferência da RFT, porque mostraram basicamente que, respeitando suas premissas (em relação à CDT e à suavização), os resultados são imparciais. Sob essa ótica, os novos resultados mostram que práticas diferentes na literatura tendem a influenciar a inferência, pois quebra as premissas da RFT.

Nas múltiplas comparações

Também é sabido que muitos estudos em neurociência não corrigem múltiplas comparações, estimativas variando de 10% a 40% da literatura. Mas esses argumentos não são contabilizados, todos sabem que esses documentos têm validade frágil e possivelmente enormes taxas de falso positivo.

Na FWER superior a 70%

Os autores também relataram um procedimento que produz FWER acima de 70%. Esse procedimento "popular" consiste em aplicar o CDT para manter apenas clusters altamente significativos e depois aplicar outro limite de extensão de cluster escolhido arbitrariamente (em número de voxels). Isso, às vezes chamado de "inferência", tem bases estatísticas fracas e, possivelmente, gera os resultados menos confiáveis.

Relatórios anteriores

Os mesmos autores já haviam relatado problemas com a validade do SPM [ 1 ] em análises individuais. Existem também outros trabalhos citados nessa área.

Curiosamente, vários relatórios sobre análises em nível de grupo e individual com base em dados simulados concluíram que o limite de RFT era, de fato, conservador. Com os recentes avanços no poder de processamento, o RPT pode ser realizado com muito mais facilidade em dados reais, mostrando grandes discrepâncias com o RFT.

ATUALIZAÇÃO: 18 de outubro de 2017

Um comentário sobre "Cluster Failure" veio à tona em junho passado [ 3 ]. Ali Mueller et al. argumentam que os resultados apresentados em Eklund et al podem ser devidos a uma técnica específica de pré-processamento de imagem usada em seu estudo. Basicamente, eles reamostraram as imagens funcionais para uma resolução mais alta antes da suavização (embora provavelmente não seja feito por todos os pesquisadores, esse é um procedimento de rotina na maioria dos softwares de análise de fMRI). Eles também observam que Flandin & Friston não. Na verdade, eu vi Eklund falar no mesmo mês na Reunião Anual da Organização para Mapeamento do Cérebro Humano (OHBM) em Vancouver, mas não me lembro de nenhum comentário sobre esse assunto, mas parece crucial para a pergunta.

[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. e Knutsson, H. (2012). A análise paramétrica de fMRI com SPM produz resultados válidos? - Um estudo empírico de 1484 conjuntos de dados em repouso. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A. e Wager, TD (2014). Limiar baseado em extensão de cluster nas análises de fMRI: armadilhas e recomendações. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE & Lohmann, G. (2017). Comentário: Falha no cluster: Por que as inferências de fMRI quanto à extensão espacial aumentaram as taxas de falsos positivos. Fronteiras em Neurociência Humana, 11.

— Firebug
fonte

@ Qroid Sim, para a primeira parte, a suposição não se aplica (e essa é provavelmente a causa do bom desempenho do teste de permutação não paramétrica). Os aglomerados são aglomerados de voxels, ou seja, voxels vizinhos mostrando o mesmo efeito. Há um valor p para definir um cluster (o limite de definição de cluster).

— Firebug

Essa resposta se concentra principalmente em se é 40000 ou algum outro número, mas acho que seria mais interessante para muitas pessoas aqui se você pudesse resumir o debate principal (quais são os clusters? Qual é o problema das correlações espaciais para o teste de hipóteses? Ninguém realmente pensa nisso antes? etc.)

— ameba diz Reinstate Monica

Obrigado novamente. Depois de olhar brevemente para Woo et al. 2014, agora tenho mais certeza de por que Eklund et al. entrou no PNAS e, consequentemente, produziu uma tempestade de granizo na imprensa popular e nos blogs. Woo e cols. dizendo mais ou menos a mesma coisa? Aqui está, exatamente nos seus "destaques": "Outra armadilha é o aumento de falsos positivos quando um limite primário liberal é usado".

— Ameba diz Reinstate Monica

Eu vejo. Então, meu entendimento é que, cientificamente, nada de realmente aconteceu agora: o problema com os CDT liberais é conhecido há anos, discutido em vários artigos e mostrado em várias simulações por vários pesquisadores. (Mas, no entanto, alguns pesquisadores continuaram usando CDTs perigosamente liberais.) Eklund et al. 2016 teve a sorte de ser publicado em um jornal de "alto perfil" e vaia! - todo mundo está falando sobre isso como se fosse uma revelação.

— Ameba diz Reinstate Monica

@amoeba A comunidade de neurociências precisa de uma repressão estatística, como o que aconteceu na psicologia aplicada (talvez não seja tão drástica quanto proibir valores-p). Muitos trabalhos que reivindicam significância estatística não têm rigor estatístico, as pessoas usam as ferramentas e os parâmetros que fazem os "resultados aparecerem".

— 26416 Firebug