Estou lutando para encontrar um método para reduzir o número de categorias em dados nominais ou ordinais.
Por exemplo, digamos que eu queira criar um modelo de regressão em um conjunto de dados que possua vários fatores nominais e ordinais. Embora não tenha problemas com esta etapa, frequentemente encontro situações em que um recurso nominal está sem observações no conjunto de treinamento, mas existe posteriormente no conjunto de dados de validação. Isso naturalmente leva a um erro quando o modelo é apresentado com (até agora) casos não vistos. Outra situação em que eu gostaria de combinar categorias é simplesmente quando há muitas categorias com poucas observações.
Então, minhas perguntas são:
- Embora eu saiba que talvez seja melhor combinar muitas categorias nominais (e ordinais) com base nas informações prévias do mundo real que elas representam, existem métodos sistemáticos (de
R
preferência pacotes) disponíveis? - Que diretrizes e sugestões você faria em relação aos limites de corte e assim por diante?
- Quais são as soluções mais populares na literatura?
- Existem outras estratégias além da combinação de pequenas categorias nominais a uma nova categoria "OUTROS"?
Por favor, sinta-se à vontade para entrar em contato se tiver outras sugestões.