Quais técnicas estão disponíveis para recolher (ou agrupar) muitas categorias para algumas, com o objetivo de usá-las como uma entrada (preditora) em um modelo estatístico?
Considere uma variável como estudante universitário (disciplina escolhida por um estudante de graduação). É desordenado e categórico, mas pode potencialmente ter dezenas de níveis distintos. Digamos que eu queira usar major como preditor em um modelo de regressão.
O uso desses níveis como estão na modelagem leva a todos os tipos de problemas, porque existem tantos. Muita precisão estatística seria descartada para usá-los, e os resultados são difíceis de interpretar. Raramente estamos interessados em cursos específicos - é muito mais provável que nos interessemos por categorias amplas (subgrupos) de cursos. Mas nem sempre é claro como dividir os níveis em categorias de nível superior, ou mesmo quantas categorias de nível superior usar.
Para dados típicos, eu ficaria feliz em usar a análise fatorial, fatoração matricial ou uma técnica discreta de modelagem latente. Mas as principais são categorias mutuamente exclusivas, por isso hesito em explorar sua covariância para qualquer coisa.
Além disso, eu não me importo com as principais categorias por conta própria. Preocupo-me com a produção de categorias de nível superior que sejam coerentes em relação ao meu resultado de regressão . No caso de resultado binário, isso me sugere algo como análise discriminante linear (LDA) para gerar categorias de nível superior que maximizam o desempenho discriminativo. Mas o LDA é uma técnica limitada e parece dados sujos para mim. Além disso, qualquer solução contínua será difícil de interpretar.
Enquanto isso, algo baseado em covariâncias, como Análise de Correspondência Múltipla (MCA), parece-me suspeito neste caso, devido à dependência inerente entre variáveis fictícias mutuamente exclusivas - elas são mais adequadas para o estudo de várias variáveis categóricas, em vez de várias categorias do mesma variável.
editar : para ficar claro, trata-se de recolher categorias (não selecioná-las) e as categorias são preditores ou variáveis independentes. Em retrospectiva, esse problema parece ser um momento apropriado para "regularizá-los todos e deixar que Deus os resolva". Fico feliz em ver esta pergunta é interessante para tantas pessoas!