Estou usando o classificador ingênuo de bayes para classificar entre dois grupos de dados. Um grupo de dados é muito maior que o outro (acima de 4 vezes). Estou usando a probabilidade anterior de cada grupo no classificador.
O problema é que o resultado obtido tem 0% de taxa positiva verdadeira e 0% de taxa positiva falsa. Obtive os mesmos resultados quando defini o anterior para 0,5 e 0,5.
Como posso definir meu limite para algo melhor para obter resultados mais equilibrados?
Eu tive um problema semelhante ao usar o classificador de regressão logística. Eu o resolvi subtraindo o termo anterior do viés.
Quando uso o Fisher Linear Discriminant nesses dados, obtenho bons resultados com o limite definido no meio.
Presumo que exista alguma solução comum para esse problema, simplesmente não consegui encontrá-lo.
UPDATE: Acabei de notar que o classificador está se ajustando demais. O desempenho no conjunto de treinamento é perfeito (100% correto).
Se eu usar grupos iguais, o classificador começará a classificar também para o grupo "pequeno", mas o desempenho é muito ruim (pior que FLD ou LR).
UPDATE2: Eu acho que o problema era que eu estava usando uma matriz de covariância completa. Correr com matriz de covariância diagonal me deu resultados mais "equilibrados".