O coeficiente de dados é o mesmo que precisão?

Me deparei com o coeficiente Dice para similaridade de volume ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) e precisão ( https://en.wikipedia.org/wiki/Accuracy_and_precision )

Parece-me que essas duas medidas são iguais. Alguma ideia?

— RockTheStar
fonte

Isso fornece todas as informações stats.stackexchange.com/questions/195006/…

— rank1

@ rank1 Obrigado. Quero esclarecer: não é que o link para a minha pergunta :)

— RockTheStar

ooops, este aqui: ncbi.nlm.nih.gov/pmc/articles/PMC4533825

— rank1

Respostas:

Não são a mesma coisa e são frequentemente usados em contextos diferentes. A pontuação de dados é frequentemente usada para quantificar o desempenho dos métodos de segmentação de imagens . Lá, você anota alguma região de base da verdade na sua imagem e cria um algoritmo automatizado para fazer isso. Você valida o algoritmo calculando a pontuação de dados, que é uma medida de quão semelhantes são os objetos. Portanto, é o tamanho da sobreposição das duas segmentações dividido pelo tamanho total dos dois objetos. Usando os mesmos termos da descrição da precisão, a pontuação dos dados é:

Dice score = \frac{2 \cdot number of true positives}{2 \cdot number of true positives + number of false positives + number of false negatives}

$\text{Dice score} = \frac{2\cdot \text{number of true positives}}{2 \cdot \text{number of true positives + number of false positives + number of false negatives}}$ Portanto, o número de verdadeiros positivos é o número encontrado pelo seu método, o número de positivos é o número total de positivos que podem ser encontrados e o número de falsos positivos é o número de pontos negativos que o seu método classifica como positivo.

A pontuação dos dados não é apenas uma medida de quantos positivos você encontra, mas também penaliza os falsos positivos que o método encontra, semelhante à precisão. portanto, é mais parecido com precisão do que com precisão. A única diferença é o denominador, onde você tem o número total de positivos, em vez de apenas os positivos encontrados pelo método. Portanto, a pontuação dos dados também penaliza os aspectos positivos que seu algoritmo / método não conseguiu encontrar.

Edit: No caso de segmentação de imagem, digamos que você tenha uma máscara com verdade absoluta, vamos chamar a máscara como você sugere. Portanto, a máscara tem valores 1 nos pixels, onde há algo que você está tentando encontrar e mais zero. Agora você tem um algoritmo para gerar imagem / máscara , que também deve ser uma imagem binária, ou seja, você cria uma máscara para sua segmentação. Então temos o seguinte: $A$ $B$

Número de positivos é o número total de pixels que têm intensidade 1 na imagem $A$
Número de verdadeiros positivos é o número total de pixels, que têm o valor 1 em ambos e . Por isso, a interseção das regiões queridos em e . É o mesmo que usar o operador AND em e . $A$ $B$ $A$ $B$ $A$ $B$
Número de falsos positivos é o número de pixels que aparecem como 1 em , mas zero . $B$ $A$

Se você estiver fazendo isso para uma publicação, escreva Dice com D maiúsculo, porque é nomeado após um cara chamado Dice.

EDIT: Sobre o comentário sobre uma correção: Eu não uso a fórmula tradicional para calcular o coeficiente de dados, mas se eu o traduzir para a notação da outra resposta, ele se tornará:

Dice score = \frac{2 \cdot | A \cap B |}{2 \cdot | A \cap B | + | B ∖ A | + | A ∖ B |}

$\text{Dice score} = \frac{2\cdot|A\cap B|}{2\cdot|A\cap B| + |B\backslash A| + |A\backslash B|}$

O que é equivalente à definição tradicional. É mais conveniente escrevê-lo da maneira que escrevi originalmente para indicar a fórmula em termos de falsos positivos. A barra invertida é o conjunto de menos.

— Gumeo
fonte

Obrigado pela resposta. Exatamente para comparação de segmentação de imagens. Portanto, essa pontuação de dados é usada, digamos, dê a imagem A e a imagem B. A imagem A é verdadeira (0 ou 1) e a imagem B é minha segmentação. Então, qual é o número total de positivos (1), é que o número de 1 em A + número de 1 em B ?? Estou um pouco confuso aqui. O mesmo que falso positivo

— RockTheStar

@RockTheStar Vou editar minha resposta para considerar a segmentação de imagens.

— Gumeo 11/02

Ótimo, muito obrigado pela sua explicação. Mais uma pergunta de acompanhamento. E o intervalo de D? Isso é entre 0 e 1?

— RockTheStar

Ótimo, obrigado! Vai implementar isso e olhar para o resultado

— RockTheStar

@Gumeo você pode querer corrigir ou pelo menos explicar sua resposta, por favor, veja a minha nova resposta para mais detalhes

— DVB

O coeficiente de dados (também conhecido como índice de similaridade de dados) é o mesmo que o escore F1 , mas não é o mesmo que precisão. A principal diferença pode ser o fato de que a precisão leva em consideração os verdadeiros negativos, enquanto o coeficiente de dados e muitas outras medidas apenas tratam os negativos verdadeiros como padrões desinteressantes (consulte O básico da avaliação de classificadores, parte 1 ).

Tanto quanto posso dizer, o coeficiente de dados não é calculado como descrito por uma resposta anterior , que na verdade contém a fórmula do índice Jaccard (também conhecido como "interseção sobre união" na visão computacional).

\begin{aligned} D i c e (A, B) & = \frac{2 | A \cdot B |}{| A | + | B |} \\ F 1 (A, B) & = \frac{2}{| A | / | A \cdot B | + | B | / | A \cdot B |} \\ J a c c a r d (A, B) & = \frac{| A \cdot B |}{| m a x (A, B) |} = \frac{| A \cdot B |}{| A | + | B | - | A \cdot B |} \\ A c c u r a c y (A, B) & = \frac{| A \cdot B | + | \bar{A} \cdot \bar{B} |}{| A l l |} \end{aligned}

$\begin{align*} Dice(A,B) &= \frac{2|A\cdot B|}{ |A| + |B| } \\ F1(A,B) &= \frac{2}{|A|/|A \cdot B| + |B|/|A\cdot B|} \\ Jaccard(A,B) &= \frac{|A\cdot B|}{|max(A,B)|} = \frac{|A\cdot B|}{|A|+|B|-|A\cdot B|}\\ Accuracy(A,B) &= \frac{|A\cdot B|+|\overline{A} \cdot \overline{B}|}{|All|} \\ \end{align*}$

Onde vetores binários (com valores de 1 para elementos dentro de um grupo e 0 caso contrário), um significa a verdade fundamental e o outro significa o resultado da classificação, e é apenas todos os elementos considerados (um vetor binário de 1 do mesmo comprimento). Por exemplo,(produto interno de e ) é o número de verdadeiros positivos(produto interno do complemento de e do complemento de ) é o número de verdadeiros negativos. $A,B$ $All$ $|A \cdot B|$ $A$ $B$ $|\overline{A} \cdot \overline{B}|$ $A$ $B$

O coeficiente de dados e o índice de Jaccard são relacionados monotonicamente, e o índice de Tversky generaliza os dois, para ler mais sobre isso, veja F-scores, Dice e Jaccard definem a similaridade .

O coeficiente de dados também é a média harmônica de Sensibilidade e Precisão, para ver por que faz sentido, leia Por que o F-Measure é uma média harmônica e não uma média aritmética das medidas de Precisão e Recuperação? .

Para ler mais sobre muitos dos termos desta resposta e seus relacionamentos, consulte Avaliação de classificadores binários .

— dvb
fonte