Estou trabalhando em um projeto e preciso de recursos para me atualizar.
O conjunto de dados é de cerca de 35000 observações em 30 variáveis. Cerca da metade das variáveis são categóricas, com algumas possuindo muitos valores possíveis, ou seja, se você dividir as variáveis categóricas em variáveis dummy, terá muito mais que 30 variáveis. Mas ainda provavelmente da ordem de algumas centenas no máximo. (n> p).
A resposta que queremos prever é ordinal com 5 níveis (1,2,3,4,5). Os preditores são uma mistura de contínua e categórica, cerca de metade de cada. Estes são meus pensamentos / planos até agora: 1. Trate a resposta como contínua e execute a regressão linear de baunilha. 2. Execute regressão logística probit e logística nominal e ordinal 3. Use MARS e / ou outro tipo de regressão não linear
Eu estou familiarizado com a regressão linear. MARS é bem descrito por Hastie e Tibshirani. Mas estou perplexo quando se trata de logit / probit ordinal, especialmente com tantas variáveis e um grande conjunto de dados.
O pacote r glmnetcr parece ser minha melhor aposta até agora, mas a documentação dificilmente é suficiente para me levar onde eu preciso estar.
Onde posso aprender mais?