Estou aprendendo a classificação SVM e encontro um problema. Não tenho certeza se esse dilema tem uma terminologia para ele.
Suponha que gostaríamos de classificar os pacientes por SVM, considerando as amostras de pessoas saudáveis (de ambos os sexos) e pessoas com câncer de fígado (de ambos os sexos). Se rotularmos a amostra de pessoas saudáveis como classe 1 e as pessoas com câncer como classe 2, poderemos treinar um SVM binário e obter um classificador 1 para prever qualquer novo paciente. Agora, imagine outro cenário. Suponha que primeiro dividamos todas as amostras por gênero antes da classificação SVM. Para cada gênero, ainda rotulamos pacientes saudáveis contra pacientes com câncer em 2 classes e treinamos um SVM binário para obter os classificadores 2 e 3 para amostras femininas e masculinas, respectivamente. A questão é se existe uma nova paciente do sexo feminino, qual classificador 1 ou 2 deve ser usado para obter uma previsão mais precisa? Aqui está o dilema dos argumentos que tenho
(1) Quando o número de amostras é grande, a previsão deve ser mais precisa. Com base nesse argumento, o classificador 1 parece uma boa escolha.
(2) No entanto, se dividirmos as amostras em grupos feminino e masculino primeiro, o classificador 2 parecerá uma escolha melhor, pois o novo paciente (amostra desconhecida) é do sexo feminino.
Esse tipo de dilema tem uma terminologia ou alguém sabe mais informações ou como resolver um problema como esse? Eu nem tenho certeza se essa é uma pergunta legítima e peço desculpas pela pergunta ingênua com antecedência. obrigado