Parece que você entende que é capaz de ter n
níveis, ao contrário de n-1
, porque, diferentemente da regressão linear, não precisa se preocupar com a colinearidade perfeita.
(Estou abordando isso da perspectiva R, mas presumo que seja o mesmo no Python.) Isso depende de duas coisas, como 1) qual pacote você está usando e 2) quantos níveis de fator você possui.
1) Se você estiver usando o randomForest
pacote de R , se tiver <33 níveis de fator, poderá prosseguir e deixá-los em um recurso, se desejar. Isso ocorre porque, na implementação da floresta aleatória de R, ele verifica quais níveis de fator devem estar de um lado da divisão e quais do outro (por exemplo, 5 dos seus níveis podem ser agrupados no lado esquerdo e 7 podem ser agrupados juntos à direita). Se você dividir o recurso categórico em n
manequins, o algoritmo não terá essa opção à sua disposição.
Obviamente, se o pacote em particular que você estiver usando não puder lidar com recursos categóricos, você precisará criar n
variáveis fictícias.
2) Como mencionei acima, a implementação de floresta aleatória de R pode lidar apenas com 32 níveis de fator - se você tiver mais do que isso, precisará dividir seus fatores em subconjuntos menores ou criar uma variável dummy para cada nível.
randomForest
são codificados automaticamente, eu devo usarn
manequins porque a colinearidade não é um problema para a RF?