Eu tenho um conjunto de dados que é estritamente binário. o conjunto de valores de cada variável está no domínio: true, false.
a propriedade "especial" desse conjunto de dados é que a maioria esmagadora dos valores é "falsa".
Eu já usei um algoritmo de aprendizado de rede bayesiana para aprender uma rede a partir dos dados. no entanto, para um dos meus nós de destino (o mais importante, sendo a morte), o resultado da AUC não é muito bom; é um pouco melhor que o acaso. mesmo o valor preditivo positivo (VPP), que me foi sugerido no currículo, não era competitivo com o que é relatado na literatura com outras abordagens. note que a AUC (análise ROC) é o benchmark típico relatado nessa área de pesquisa clínica, mas também estou aberto a sugestões sobre como avaliar o modelo de classificação de forma mais apropriada, se houver outras idéias.
então, eu queria saber que outros modelos de classificação posso tentar para esse tipo de conjunto de dados com essa propriedade (principalmente valores falsos).
- suportaria a ajuda da máquina vetorial? Até onde eu sei, o SVM lida apenas com variáveis contínuas como preditores (embora tenha sido adaptado para multi-classe). mas minhas variáveis são todas binárias.
- uma floresta aleatória ajudaria?
- a regressão logística seria aplicada aqui? Até onde eu sei, os preditores em regressão logística também são contínuos. existe uma versão generalizada para variáveis binárias como preditores?
além do desempenho da classificação, suspeito que o SVM e a floresta aleatória possam superar a rede bayesiana, mas o problema muda para como explicar as relações nesses modelos (especialmente para os médicos).