Na figura 40000
As notícias são realmente sensacionalistas, mas o jornal é realmente bem fundamentado. Discussões duraram dias no meu laboratório, apesar de tudo uma crítica realmente necessária que faz com que os pesquisadores examinem seu trabalho. Eu recomendo a leitura do seguinte comentário de Thomas Nichols , um dos autores do artigo "Falha de cluster: por que as inferências de ressonância magnética de fMRI em termos espaciais inflacionaram taxas de falso-positivas" (desculpe pela longa citação).
No entanto, há um número de que me arrependo: 40.000. Ao tentar nos referir à importância da disciplina fMRI, usamos uma estimativa de toda a literatura fMRI como número de estudos impactados por nossos achados. Em nossa defesa, encontramos problemas com a inferência do tamanho do cluster em geral (grave para P = 0,01 CDT, enviesado para P = 0,001), o método de inferência dominante, sugerindo que a maioria da literatura foi afetada. O número na declaração de impacto, no entanto, foi captado pela imprensa popular e alimentou uma pequena tempestade no twitter. Portanto, sinto que é meu dever fazer uma estimativa aproximada de "Quantos artigos nosso trabalho afeta?". Eu não sou um bibliométrico, e esse é realmente um exercício difícil, mas espero que dê uma idéia da ordem de magnitude do problema.
O código de análise (em Matlab) é apresentado abaixo, mas aqui está o que é preciso: com base em alguns cálculos probabilísticos razoáveis, mas talvez em amostras frágeis da literatura, eu estimo que cerca de 15.000 artigos usam inferência de tamanho de cluster com correção para testes múltiplos; destes, cerca de 3.500 usam um CDT de P = 0,01. 3.500 representam cerca de 9% de toda a literatura, ou talvez mais útil, 11% dos artigos que contêm dados originais. (É claro que alguns desses 15.000 ou 3.500 podem usar inferência não paramétrica, mas infelizmente é raro para fMRI - em contraste, é a ferramenta de inferência padrão para análises estruturais de VBM / DTI no FSL).
Eu sinceramente pensei que esse número seria maior, mas não percebi a grande proporção de estudos que nunca usaram nenhum tipo de correção de teste múltiplo. (Não é possível inflacionar significados corrigidos se você não corrigir!) . Esses cálculos sugerem que 13.000 artigos não usaram nenhuma correção de teste múltiplo. É claro que alguns deles podem estar usando regiões de interesse ou análises de sub-volume, mas são poucos os (isto é, resultado do estilo de ensaio clínico) que não têm absolutamente nenhuma multiplicidade. Nosso artigo não é diretamente sobre esse grupo, mas para publicações que usaram a correção de teste múltiplo popular, P <0,001 & k> 10, nosso artigo mostra que essa abordagem tem taxas de erro familiares muito superiores a 50%.
Então, estamos dizendo que 3.500 documentos estão "errados"? Depende. Nossos resultados sugerem que os resultados do CDT P = 0,01 aumentaram os valores de P, mas cada estudo deve ser examinado ... se os efeitos forem realmente fortes, provavelmente não importa se os valores de P são tendenciosos e a inferência científica permanecerá inalterada. Mas se os efeitos forem realmente fracos, os resultados poderão ser consistentes com o ruído . E quanto aos 13.000 trabalhos sem correção, especialmente comuns na literatura anterior? Não, eles também não devem ser descartados imediatamente, mas é necessário um olhar particularmente cansado para esses trabalhos, especialmente quando comparados a novas referências com padrões metodológicos aprimorados.
Ele também inclui esta tabela no final:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
Basicamente, o SPM (Statistical Parametric Mapping, uma caixa de ferramentas para Matlab) é a ferramenta mais amplamente usada para estudos de neurociência de fMRI. Se você verificar o documento, verá que usar um CDT de P = 0,001 (o padrão) para clusters no SPM fornece quase a taxa de erro familiar esperada.
Os autores até preencheram uma errata devido à redação do artigo:
Dada a ampla interpretação errônea de nosso artigo, Eklund et al., Cluster Failure: Por que as inferências de ressonância magnética por extensão espacial aumentaram as taxas de falso positivo, arquivamos uma errata no escritório de redação do PNAS:
Erratas para Eklund et al., Falha no cluster: por que as inferências de fMRI para extensão espacial inflaram taxas de falso positivo. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans
Duas frases eram mal formuladas e poderiam facilmente ser mal interpretadas como exagerando nossos resultados.
A última frase da declaração de significância deve ser: "Esses resultados questionam a validade de vários estudos de ressonância magnética e podem ter um grande impacto na interpretação de resultados de neuroimagem fracamente significativos".
A primeira frase após o título “O futuro da fMRI” deveria ter sido: “Devido às práticas lamentáveis de arquivamento e compartilhamento de dados, é improvável que análises problemáticas possam ser refeitas”.
Eles substituem as duas frases que implicitamente equivocam que nosso trabalho afetou todas as 40.000 publicações (consulte Bibliometria da inferência de cluster para obter uma estimativa de quanto da literatura é potencialmente afetada).
Após inicialmente recusar a errata, com o argumento de que estava corrigindo a interpretação e não o fato, o PNAS concordou em publicá-la como a submetemos acima.
No chamado Bug
Algumas notícias também mencionaram um bug como a causa da invalidez dos estudos. De fato, uma das ferramentas da AFNI estava deduzindo inferências e isso foi resolvido após a publicação da pré-impressão no arXiv .
Inferência estatística usada na neuroimagem funcional
A neuroimagem funcional inclui muitas técnicas que visam medir a atividade neuronal no cérebro (por exemplo, fMRI, EEG, MEG, NIRS, PET e SPECT). Estes são baseados em diferentes mecanismos de contraste. A RMf baseia-se no contraste dependente do nível de oxigênio no sangue (BOLD). Na fMRI baseada em tarefas, dado um estímulo, os neurônios no cérebro responsáveis pela recepção dessa estimulação começam a consumir energia e isso desencadeia a resposta hemodinâmica alterando o sinal de ressonância magnética ( ) nas proximidades do micro recrutado -vascularização.≈5%
Usando um modelo linear generalizado (GLM), você identifica quais séries temporais do sinal voxel estão correlacionadas com o design do paradigma de seu experimento (geralmente uma série temporal booleana complicada com uma função de resposta hemodinâmica canônica, mas existem variações).
Portanto, este GLM forneceu o quanto cada série temporal voxel se assemelha à tarefa. Agora, digamos que você tenha dois grupos de indivíduos: pacientes e controles normalmente. A comparação das pontuações GLM entre os grupos poderia ser usada para mostrar como a condição dos grupos modula o padrão de "ativação" do cérebro.
A comparação do Voxel entre os grupos é possível, mas devido à função de dispersão de pontos inerente ao equipamento, além de uma etapa de pré-processamento de suavização, não é razoável esperar que os voxels carreguem todas as informações individualmente. A diferença de voxels entre os grupos deve estar, de fato, espalhada pelos voxels vizinhos.
Portanto, é realizada uma comparação em cluster , ou seja, apenas diferenças entre grupos que se formam em clusters são consideradas. Esse limiar de extensão de cluster é a técnica de correção de comparação múltipla mais popular nos estudos de ressonância magnética. O problema está aqui.
O SPM e o FSL dependem da teoria gaussiana de campo aleatório (RFT) para inferência voxelwise e clusterwise corrigida por FWE. No entanto, a inferência RFT em cluster depende de duas suposições adicionais. A primeira suposição é que a suavidade espacial do sinal de fMRI é constante sobre o cérebro, e a segunda suposição é que a função de autocorrelação espacial tem uma forma específica (um exponencial ao quadrado) (30)
No SPM, pelo menos, você deve definir uma taxa FWE nominal e também um limite de definição de cluster (CDT). Basicamente, o SPM encontra voxels altamente correlacionados com a tarefa e, após o limiar com o CDT, os vizinhos são agregados em clusters. Esses tamanhos de clusters são comparados com a extensão esperada do cluster da Random Field Theory (RFT), considerando o conjunto FWER [ 1 ].
A teoria de campos aleatórios requer que o mapa de atividades seja suave, para ser uma boa aproximação da rede aos campos aleatórios. Isso está relacionado à quantidade de suavização aplicada aos volumes. A suavização também afeta a suposição de que os resíduos são normalmente distribuídos, pois a suavização, pelo teorema do limite central, tornará os dados mais gaussianos.
Os autores mostraram em [ 1 ] que os tamanhos esperados de cluster da RFT são realmente pequenos quando comparados com os limites de extensão do cluster obtidos no teste de permutação aleatória (RPT).
Em seu artigo mais recente, os dados do estado de repouso (outra modalidade da ressonância magnética, onde os participantes são instruídos a não pensar em nada em particular) foram usados como se as pessoas executassem uma tarefa durante a aquisição da imagem e a comparação do grupo fosse realizada com voxel e cluster -sensato. A taxa de erro falso positivo observada (ou seja, quando você observa diferenças na resposta do sinal a uma tarefa virtual entre grupos) deve ser razoavelmente menor que a taxa esperada de FWE definida em . Refazer esta análise milhões de vezes em grupos amostrados aleatoriamente com diferentes paradigmas mostrou que as taxas de FWE mais observadas são mais altas do que aceitáveis.α=0.05
@amoeba levantou essas duas questões altamente pertinentes nos comentários:
(1) O Eklund et al. O documento do PNAS fala sobre o "nível nominal de 5%" de todos os testes (veja, por exemplo, linha preta horizontal na Fig. 1). No entanto, o CDT na mesma figura está variando e pode ser, por exemplo, 0,01 e 0,001. Como o limite do CDT se relaciona com a taxa de erro nominal do tipo I? Estou confuso com isso. (2) Você viu a resposta de Karl Friston
http://arxiv.org/abs/1606.08199 ? Eu li, mas não tenho muita certeza do que eles estão dizendo: percebo corretamente que eles concordam com Eklund et al. mas diga que esse é um problema "bem conhecido"?
(1) Boa pergunta. Na verdade, revi minhas referências, vamos ver se posso deixar isso mais claro agora. A inferência em termos de cluster é baseada na extensão dos clusters que se formam após a aplicação de um limite primário (o CDT, que é arbitrário ). Na análise secundária, é aplicado um limite no número de voxels por cluster . Esse limite baseia-se na distribuição esperada de extensões de cluster nulas, que podem ser estimadas a partir da teoria (por exemplo, RFT), e define uma FWER nominal. Uma boa referência é [ 2 ].
(2) Obrigado por esta referência, não a vi antes. Flandin e Friston argumentam Eklund et al. corroboraram a inferência da RFT, porque mostraram basicamente que, respeitando suas premissas (em relação à CDT e à suavização), os resultados são imparciais. Sob essa ótica, os novos resultados mostram que práticas diferentes na literatura tendem a influenciar a inferência, pois quebra as premissas da RFT.
Nas múltiplas comparações
Também é sabido que muitos estudos em neurociência não corrigem múltiplas comparações, estimativas variando de 10% a 40% da literatura. Mas esses argumentos não são contabilizados, todos sabem que esses documentos têm validade frágil e possivelmente enormes taxas de falso positivo.
Na FWER superior a 70%
Os autores também relataram um procedimento que produz FWER acima de 70%. Esse procedimento "popular" consiste em aplicar o CDT para manter apenas clusters altamente significativos e depois aplicar outro limite de extensão de cluster escolhido arbitrariamente (em número de voxels). Isso, às vezes chamado de "inferência", tem bases estatísticas fracas e, possivelmente, gera os resultados menos confiáveis.
Relatórios anteriores
Os mesmos autores já haviam relatado problemas com a validade do SPM [ 1 ] em análises individuais. Existem também outros trabalhos citados nessa área.
Curiosamente, vários relatórios sobre análises em nível de grupo e individual com base em dados simulados concluíram que o limite de RFT era, de fato, conservador. Com os recentes avanços no poder de processamento, o RPT pode ser realizado com muito mais facilidade em dados reais, mostrando grandes discrepâncias com o RFT.
ATUALIZAÇÃO: 18 de outubro de 2017
Um comentário sobre "Cluster Failure" veio à tona em junho passado [ 3 ]. Ali Mueller et al. argumentam que os resultados apresentados em Eklund et al podem ser devidos a uma técnica específica de pré-processamento de imagem usada em seu estudo. Basicamente, eles reamostraram as imagens funcionais para uma resolução mais alta antes da suavização (embora provavelmente não seja feito por todos os pesquisadores, esse é um procedimento de rotina na maioria dos softwares de análise de fMRI). Eles também observam que Flandin & Friston não. Na verdade, eu vi Eklund falar no mesmo mês na Reunião Anual da Organização para Mapeamento do Cérebro Humano (OHBM) em Vancouver, mas não me lembro de nenhum comentário sobre esse assunto, mas parece crucial para a pergunta.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. e Knutsson, H. (2012). A análise paramétrica de fMRI com SPM produz resultados válidos? - Um estudo empírico de 1484 conjuntos de dados em repouso. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. e Wager, TD (2014). Limiar baseado em extensão de cluster nas análises de fMRI: armadilhas e recomendações. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE & Lohmann, G. (2017). Comentário: Falha no cluster: Por que as inferências de fMRI quanto à extensão espacial aumentaram as taxas de falsos positivos. Fronteiras em Neurociência Humana, 11.