Para encurtar a história : faça o que o @untitledprogrammer disse, tente os dois modelos e faça a validação cruzada para ajudar a escolher um.
As árvores de decisão (dependendo da implementação, por exemplo, C4.5) e a regressão logística devem ser capazes de lidar com dados contínuos e categóricos muito bem. Para a regressão logística, convém codificar suas variáveis categóricas .
Como o @untitledprogrammer mencionou, é difícil saber a priori qual técnica será melhor com base simplesmente nos tipos de recursos que você possui, contínuos ou não. Realmente depende do seu problema específico e dos dados que você possui. (Veja Sem Teorema do Almoço Gratuito )
Você deve ter em mente que um modelo de regressão logística está procurando por um único limite de decisão linear no seu espaço de recurso, enquanto uma árvore de decisão está essencialmente particionando seu espaço de recurso em meios espaços usando limites de decisão linear alinhados ao eixo . O efeito líquido é que você tem um limite de decisão não linear, possivelmente mais de um.
Isso é bom quando seus pontos de dados não são facilmente separados por um único hiperplano, mas, por outro lado, as árvores de decisões são tão flexíveis que podem ser sujeitas a superajustes. Para combater isso, você pode tentar a poda. A regressão logística tende a ser menos suscetível (mas não imune!) Ao sobreajuste.
x yxy
Então você tem que se perguntar:
- que tipo de limite de decisão faz mais sentido no seu problema específico?
- como você deseja equilibrar o viés e a variação?
- existem interações entre meus recursos?
Obviamente, é sempre uma boa idéia apenas experimentar os dois modelos e fazer a validação cruzada. Isso ajudará você a descobrir qual é mais provável que tenha um erro de generalização melhor.