Eu tenho um conjunto de dados que possui um atributo de classe binária. Existem 623 casos com classe +1 (câncer positivo) e 101.671 casos com classe -1 (câncer negativo).
Eu tentei vários algoritmos (Naive Bayes, Random Forest, AODE, C4.5) e todos eles têm taxas de falso-negativos inaceitáveis. A Random Forest tem a maior precisão geral de previsão (99,5%) e a menor taxa de falsos negativos, mas ainda perde 79% das classes positivas (ou seja, falha em detectar 79% dos tumores malignos).
Alguma idéia de como posso melhorar essa situação?
Obrigado!