Estou ciente do fato de que variáveis categóricas com níveis k devem ser codificadas com variáveis k-1 na codificação dummy (da mesma forma para variáveis categóricas com valores múltiplos). Eu queria saber quanto de um problema uma codificação one-hot (ou seja, usando variáveis k) em vez de codificação fictícia para diferentes métodos de regressão, principalmente regressão linear, regressão linear penalizada (Lasso, Ridge, ElasticNet), baseada em árvores (florestas aleatórias , máquinas de aumento de gradiente).
Sei que na regressão linear ocorrem problemas com múltiplas colinearidades (embora na prática eu tenha ajustado a regressão linear usando OHE sem problemas).
No entanto, a codificação fictícia precisa ser usada em todas elas e quão errados os resultados seriam se alguém usar a codificação one-hot?
Meu foco está na previsão em modelos de regressão com múltiplas variáveis categóricas (alta cardinalidade), por isso não estou interessado em intervalos de confiança.