Estive pesquisando perguntas sobre a codificação de recursos categóricos, mas não encontrei nenhuma que discutisse meu problema. Desculpas se eu perdi.
Digamos que temos um conjunto de dados com variáveis binárias e nominais de importância aproximadamente igual cada.
A maioria dos classificadores não pode lidar com tipos categóricos diretamente, portanto eles precisam ser transformados - por exemplo, usando a codificação one-hot (variáveis dummy), conforme explicado nesta resposta .
Se uma variável categórica tem alta cardinalidade, a codificação dessa forma "supera" outras variáveis (por exemplo, binárias)? Por "cardinalidade", quero dizer o número de categorias em uma variável nominal.
Se nosso modelo de classificador estiver ciente dos relacionamentos entre variáveis, ele não tentaria desnecessariamente encontrar relacionamentos entre os "componentes" fictícios binários introduzidos da mesma variável?
E se sim, como isso poderia ser resolvido?
A melhor solução em que posso pensar é agrupar logicamente propriedades de alta cardinalidade em "baldes"; no entanto, se houver valores únicos suficientes para causar um problema, agrupá-los manualmente também consumirá trabalho.
Editar: isso é trivial e aborda apenas parcialmente o problema, mas uma das coisas que acabei fazendo é substituir todos os valores categóricos relativamente raros por uma nova categoria "outra". Pode levar muito tempo para otimizar o limite quando considerar o valor "raro", mas pelo menos essa abordagem pode ser automatizada.