Estou tentando descobrir como calcular o índice Rand de um algoritmo de cluster, mas estou parado no momento em como calcular os negativos verdadeiros e verdadeiros.
No momento, estou usando o exemplo do livro Uma Introdução à Recuperação de Informações (Manning, Raghavan & Schütze, 2009). Na página 359, eles falam sobre como calcular o índice Rand. Neste exemplo, eles usam três clusters e os clusters contêm os seguintes objetos.
- aaaaab
- abbbbc
- aaccc
Substituo o objeto (sinais originais em letras, mas a idéia e a contagem permanecem as mesmas). Darei as palavras exatas do livro para ver do que elas estão falando:
Primeiro calculamos TP + FP. Os três clusters contêm 6, 6 e 5 pontos, respectivamente, portanto, o número total de "positivos" ou pares de documentos que estão no mesmo cluster é:
TP + FP = + + = 15 + 15+ 10 = 40
Desses, os pares a no cluster 1, pares b no cluster 2, pares c no cluster 3 e pares a no cluster 3 são verdadeiros positivos:
TP = + + + = 10 + 6 + 3 + 1 = 20
Assim, FP = 40 - 20 = 20.
Até aqui, os cálculos são claros e, se eu der outros exemplos, obtenho os mesmos resultados, mas quando quero calcular o falso negativo e o negativo negativo Manning et al. indique o seguinte:
FN e TN são calculados de maneira semelhante, resultando na seguinte tabela de contingência:
A tabela de contingência tem a seguinte aparência:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
A frase: "FN e TN são calculados da mesma forma" não é clara para mim e não entendo quais números eu preciso calcular para TN e FN. Eu posso calcular o lado direito da tabela fazendo o seguinte:
TP + FP + FN + TN = = = 136
Fonte: http://en.wikipedia.org/wiki/Rand_index
Assim, FN + TN = 136 - TP + FP = 136 - 40 = 96, mas isso realmente não ajuda a descobrir como calcular as variáveis separadamente. Especialmente quando os autores dizem: "FN e TN são computados de maneira semelhante". Eu não vejo como. Além disso, quando observo outros exemplos, eles calculam cada célula da tabela de contingência observando cada par.
Por exemplo: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Minha primeira pergunta, baseada no exemplo de Manning et al (2009), é possível calcular o TN e o FN se você conhece apenas o TP & NP? E se sim, como é o cálculo semelhante com base no exemplo fornecido?