alguém tem uma idéia de por que estou recebendo muito mais falsos positivos do que falsos negativos (positivo é a classe minoritária)? Agradeço antecipadamente por sua ajuda!
Porque positivo é a classe minoritária. Existem muitos exemplos negativos que podem se tornar falsos positivos. Por outro lado, existem menos exemplos positivos que podem se tornar falsos negativos.
Lembre-se de que Lembre-se = Sensibilidade = TP( TP+ FN)
A sensibilidade (taxa positiva verdadeira) está relacionada à taxa de falso positivo (especificidade 1), conforme visualizado por uma curva ROC. Em um extremo, você chama todos os exemplos de positivos e tem 100% de sensibilidade com 100% de RPF. Em outro, você não chama exemplo de positivo e tem uma sensibilidade de 0% com um FPR de 0%. Quando a classe positiva é a minoria, mesmo um FPR relativamente pequeno (que você pode ter porque tem um recall alto = sensibilidade = TPR) acabará causando um número alto de FPs (porque há muitos exemplos negativos).
Desde a
= TP( TP+ FP)
Mesmo com um FPR relativamente baixo, o FP sobrecarregará o TP se o número de exemplos negativos for muito maior.
Alternativamente,
C+
O+
P( O+| C+) = P( C+| O+) P( O+)P( C+)
P (O +) é baixo quando a classe positiva é pequena.
Alguém de vocês tem algum conselho sobre o que eu poderia fazer para melhorar minha precisão sem prejudicar minha lembrança?
Conforme mencionado por @rinspy, o GBC funciona bem em minha experiência. No entanto, será mais lento que o SVC com um kernel linear, mas você pode criar árvores muito rasas para acelerá-lo. Além disso, mais recursos ou mais observações podem ajudar (por exemplo, pode haver algum recurso atualmente não analisado que é sempre definido com algum valor em todo o seu FP atual).
Também pode valer a pena traçar curvas ROC e curvas de calibração. Pode ser que, embora o classificador tenha baixa precisão, ele pode levar a uma estimativa de probabilidade muito útil. Por exemplo, saber que um disco rígido pode ter uma probabilidade 500 vezes maior de falhar, mesmo que a probabilidade absoluta seja bastante pequena, pode ser uma informação importante.
Além disso, uma baixa precisão significa essencialmente que o classificador retorna muitos falsos positivos. No entanto, isso pode não ser tão ruim se um falso positivo for barato.