Por que a maioria dos trabalhos publicados em imagens médicas tenta reduzir falsos positivos?

20

No processamento de imagens médicas, a maioria dos trabalhos publicados tenta reduzir a taxa de falsos positivos (FPR), enquanto na realidade os falsos negativos são mais perigosos do que os falsos positivos. Qual é a lógica por trás disso?

image-classification image-recognition

— Hunar A.Ahmed
fonte

1

Do ponto de vista en.wikipedia.org/wiki/Primum_non_nocere , os falsos positivos podem ser considerados as falhas mais perigosas, mesmo antes de considerar a diferença em números absolutos que Dragon aponta corretamente.

— jpa

29

TL; DR: as doenças são raras; portanto, o número absoluto de falsos positivos é muito mais do que o número de falsos negativos.

Vamos supor que nosso sistema tenha a mesma taxa de falsos positivos e falsos negativos de 1% (muito bom!), E que estamos detectando a presença de novos cânceres este ano: 439,2 / 100.000 pessoas, ou 0,5% da população. [ fonte ]

Sem câncer, sem detecção: 99,5% x 99% = 98,5% (98,505%)
Sem câncer, detecção: 99,5% x 1% = 1,0% (0,995%)
Câncer, detecção: 0,5% x 99% = 0,5% (0,495%)
Câncer, sem detecção: 0,5% x 1% = 0,005%

Então, podemos ver que temos um problema: para todos que têm câncer, duas pessoas que não tiveram câncer acabam com cirurgia invasiva, quimioterapia ou radioterapia.

Para todas as pessoas que não conseguem detectar um câncer atual, duzentas pessoas recebem tratamento ativamente prejudicial que não precisavam e que não podem pagar.

— Dragão
fonte

1

Para muitas aplicações de triagem, a incidência (nenhuma de doença recentemente diagnosticada por 100.000 habitantes) é realmente ainda mais baixa: 0,5% é a incidência total de câncer, enquanto os programas de triagem visam tipos específicos de câncer.

— cbeleites apoia Monica

6

@cbeleites, para dar um exemplo concreto, o adenocarcinoma pancreático é quase sempre fatal, porque é assintomático até atingir um estágio avançado. Se você aplicasse um teste de triagem com uma taxa de 1% de falso positivo / 1% de falso negativo para toda a população dos Estados Unidos, identificaria cerca de três milhões de casos, dos quais apenas 46.000 realmente têm o câncer, dando um resultado positivo. valor preditivo de apenas 1,5%.

— Mark

2

Para imagens médicas (fMRI, por exemplo), o problema pode ser agravado pelo fato de uma única imagem consistir em muitos "voxels", cuja ativação é considerada uma hipótese - veja, por exemplo, Zen e a arte de comparações múltiplas - Eu acho que isso pode ser o que o OP está se referindo

— steeldriver

16

Você conhece a história do garoto que chorou lobo, certo?

É a mesma ideia. Depois que algum classificador emite alarmes falsos (chora lobo) tantas vezes, a equipe médica o desativa ou ignora.

"Oh, isso de novo! NOPE!"

Pelo menos no grupo de bioengenharia com quem trabalhei, a ênfase está na redução da RPF especificamente, porque o objetivo é criar uma ferramenta que avise os médicos sobre possíveis patologias, e eles nos disseram que ignorariam um produto que chora lobo. demais.

Para um produto que auxilia os médicos, precisamos apelar à psicologia deles, apesar do argumento legítimo de que sentir falta do lobo na fazenda é pior do que chorar.

Edit : Diminuir falsos positivos também tem um argumento legítimo. Se o seu computador continua chorando lobo enquanto obtém o verdadeiro positivo ocasional (e captura a maioria dos verdadeiros positivos), está efetivamente dizendo que alguém pode estar doente. Eles estão no hospital. O médico sabe que o paciente pode estar doente.

— Dave
fonte

7

Resumo: a pergunta provavelmente * não é se um falso negativo é pior que um falso positivo, é provavelmente * mais como se 500 falsos positivos são aceitáveis para se reduzir a um falso negativo.

* depende da aplicação

Deixe-me expandir um pouco a resposta do @ Dragon:

Triagem significa que estamos procurando por doenças em uma população aparentemente saudável. Como o @Dragon explicou, para estes precisamos de um FPR extremamente baixo (ou alta sensibilidade), caso contrário, acabaremos com muito mais falsos positivos do que verdadeiros positivos. Ou seja, o valor preditivo positivo (# verdadeiramente doente entre todos os positivos diagnosticados) seria inaceitavelmente baixo.
A sensibilidade (TPR) e a especificidade (TNR) são fáceis de medir para um sistema de diagnóstico: tome vários casos verdadeiramente (não) doentes e meça a fração dos casos detectados corretamente.
OTOH, do ponto de vista dos médicos e dos pacientes, os valores preditivos são mais precisos . Eles são os "inversos" da sensibilidade e especificidade e indicam entre todas as previsões positivas (negativas) qual fração está correta. Em outras palavras, após o teste disse "doença" qual é a probabilidade de o paciente realmente ter a doença.
Como o @Dragon mostrou, a incidência (ou prevalência, dependendo do teste que estamos falando) desempenha um papel crucial aqui. A incidência é baixa em todos os tipos de aplicações de triagem / diagnóstico precoce do câncer.
Para ilustrar isso, a triagem de câncer de ovário para mulheres na pós-menopausa tem uma prevalência de 0,04% na população geral e 0,5% em mulheres de alto risco com histórico familiar e / ou mutações conhecidas dos genes supressores de tumor BRCA1 e 2 [Buchen, L. Câncer: Faltando a marca. Nature, 2011, 471, 428-432]
Portanto, a questão normalmente não é se um falso negativo é pior que um falso positivo, mas mesmo 99% de especificidade (1% FPR) e 95% de sensibilidade (números retirados do artigo acima) significam aproximadamente 500 falsos positivos para cada falso negativo .
Como uma observação lateral, lembre-se também de que o diagnóstico precoce do câncer por si só não é uma cura mágica para o câncer. Por exemplo, para mamografia de rastreamento de câncer de mama, apenas 3 - 13% dos pacientes positivos verdadeiros se beneficiam realmente da triagem .
Portanto, também precisamos ficar de olho no número de falsos positivos para cada paciente que se beneficia . Por exemplo, para mamografia, juntamente com esses números , estima-se que tenhamos algo entre 400 e 1800 falsos positivos por benefício do verdadeiro positivo (grupo de 39 a 49 anos).
Com centenas de falsos positivos por falso negativo (e talvez centenas ou mesmo milhares de falsos positivos por paciente se beneficiando da triagem), a situação não é tão clara quanto "um câncer perdido é pior do que um diagnóstico de câncer falso positivo": falsos positivos têm um impacto, variando de psicológico e psicossomático (se preocupar com o câncer por si só não é saudável) a riscos físicos de diagnósticos de acompanhamento, como biópsia (que é uma pequena cirurgia e, como tal, vem com seu próprio riscos).
Mesmo que o impacto de um falso positivo seja pequeno, os riscos correspondentes podem aumentar substancialmente se centenas de falsos positivos tiverem que ser considerados.

Leitura sugerida: Gerd Gigerenzer: Experiente em riscos: Como tomar boas decisões (2014).
Ainda, o que o PPV e o NPV são necessários para tornar um teste de diagnóstico útil depende muito da aplicação.
Como explicado, na triagem para detecção precoce do câncer, o foco geralmente é o PPV, ou seja, garantir que você não cause muito dano por falsos negativos: encontrar uma fração considerável (mesmo que não toda) dos pacientes com câncer já é uma melhoria em relação ao o status quo sem triagem.
OTOH, teste de HIV em doações de sangue concentra-se primeiro no VPL (ou seja, garantir que o sangue esteja livre de HIV). Ainda assim, em uma segunda (e terceira) etapa, os falsos positivos são reduzidos com a aplicação de mais testes antes de preocupar as pessoas com resultados (falsos) positivos.
Por último, mas não menos importante, também existem aplicativos de testes médicos em que as incidências ou prevalências não são tão extremas quanto costumam ser na triagem de populações de risco não particularmente alto, por exemplo, alguns diagnósticos diferenciais.

— cbeleites suporta Monica
fonte

1

Isso é um pouco denso; poderia usar a reformatação para facilitar a leitura. Parece uma boa resposta, mas difícil de cavar sem muito tempo.

— bob

3

Do ponto de vista pessoal, e não da experiência em ciência de dados, um falso positivo tem um impacto maior na qualidade de vida do paciente do que um falso negativo (pelo menos na maioria das aplicações de processamento de imagens médicas. Não estamos falando de resultados de laboratório aqui) .

Vejamos um exemplo concreto: triagem de tumores .

Um falso negativo significa que um tumor em estágio inicial tem mais tempo para crescer e se transformar em câncer malicioso. No geral, esse processo leva muito tempo e cada triagem subsequente tem uma chance maior de detectá-lo, mas, realisticamente, a saúde a longo prazo de um paciente sofre.

Além disso, sempre há um ser humano envolvido no diagnóstico. O processamento de imagens médicas em seu estágio tecnológico atual deve ser uma ajuda para o pessoal médico, não um substituto . Muitas vezes, isso significa apontar lesões ou alterações nos tecidos que são tão sutis que um ser humano pode ignorá-las. Não há chance de um médico ignorar um tumor em estágio avançado. Eles não precisam de processamento de imagem para isso.

Em termos de procedimentos médicos, se um tumor não se tornar inoperante antes da próxima triagem, não há grande diferença entre remover um tumor em estágio inicial ou um que tenha um pouco mais de tempo para crescer. A quantidade de tecido removido é maior, mas o tipo de operação geralmente é o mesmo. (Isso pressupõe que o paciente faça exames regulares de saúde.)

Um falso positivo tem muitas implicações que nem todas estão diretamente relacionadas a uma doença:

Procedimentos adicionais. Depois que um processo de geração de imagens produz um resultado positivo, são realizados mais testes para os quais é extraído sangue ou tecido (biópsia). Objetivamente, o corpo do paciente está danificado para poder verificar o resultado da imagem.
Medo. Os testes de laboratório levam tempo. A pessoa afetada geralmente vive vários dias, às vezes semanas, com clima de incerteza ou não, a lesão é realmente câncer. Muitas pessoas que experimentaram um falso positivo descrevem esse evento como "traumatizante" e sofrem de ansiedade relacionada à saúde há muito tempo.
Investimento de tempo. Se a verificação do resultado da imagem por meio de testes de laboratório ou similares exigir vários exames, o paciente e os médicos precisam investir tempo para eles. Mesmo que faça apenas um teste, há várias pessoas envolvidas, incluindo enfermeiras, médicos e técnicos de laboratório. Numa época em que os médicos estão sobrecarregados cronicamente, isso deve ser evitado, se possível.
Medicação desnecessária. Na pior das hipóteses, o paciente é tratado de uma doença que nem sequer tem e seu corpo é submetido a esforços desnecessários pelos efeitos colaterais da medicação.
Perda de efeito. O pessoal médico ignorará os verdadeiros resultados positivos se um procedimento produzir muitos falsos positivos (como explicado em outras respostas).

Essa avaliação de risco-benefício mostra que um falso negativo inclui menos risco para um paciente do que um falso positivo. Portanto, a prioridade de reduzir os falsos positivos é geralmente mais alta.

— Elmy
fonte

1

O tempo do clínico é precioso

No campo da medicina, os médicos geralmente têm uma grande variedade de doenças para tentar detectar e diagnosticar, e esse é um processo demorado. Uma ferramenta que apresenta um falso positivo (mesmo que em uma taxa baixa) é menos útil porque não é possível confiar nesse diagnóstico, ou seja, toda vez que ele faz esse diagnóstico, ele precisa ser verificado. Pense nisso como o WebMD do software - tudo é um sinal de câncer!

Uma ferramenta que apresenta falsos negativos, mas sempre apresenta verdadeiros positivos, é muito mais útil, pois o clínico não precisa perder tempo verificando novamente ou adivinhando o diagnóstico. Se marcar alguém como doente com um diagnóstico específico, o trabalho foi feito. Caso contrário, as pessoas que não estão destacadas como doentes receberão testes adicionais de qualquer maneira.

É melhor ter uma ferramenta que possa identificar com precisão até uma única característica de uma doença do que uma ferramenta que talvez falsifique várias características.

— SSight3
fonte

0

Taxa de falsos positivos (FPR), também conhecida como taxa de falsos alarmes (FAR); Uma grande taxa de falsos positivos pode produzir um desempenho ruim do sistema de detecção de imagens médicas. Um falso positivo é onde você recebe um resultado positivo para um teste, quando deveria ter recebido um resultado negativo. Por exemplo, um teste de gravidez é positivo quando, na verdade, a pessoa não está grávida.

— EricAtHaufe
fonte

4

Isso não está respondendo à pergunta. O OP não está perguntando o que significa falso positivo, mas por que é considerado mais importante do que falso negativo.

— Llewellyn

0

Com toda a probabilidade, todo mundo nesse segmento já sabe que esse é um problema no cerne da análise bayesiana. Apenas para o benefício de futuros peregrinos que possam pensar em falsos positivos como de alguma forma apenas um problema em radiologia, espero que este comentário forneça uma perspectiva um pouco mais geral.

— Richard Careaga
fonte