Aprendendo regressão ordinal em R?

10

Estou trabalhando em um projeto e preciso de recursos para me atualizar.

O conjunto de dados é de cerca de 35000 observações em 30 variáveis. Cerca da metade das variáveis são categóricas, com algumas possuindo muitos valores possíveis, ou seja, se você dividir as variáveis categóricas em variáveis dummy, terá muito mais que 30 variáveis. Mas ainda provavelmente da ordem de algumas centenas no máximo. (n> p).

A resposta que queremos prever é ordinal com 5 níveis (1,2,3,4,5). Os preditores são uma mistura de contínua e categórica, cerca de metade de cada. Estes são meus pensamentos / planos até agora: 1. Trate a resposta como contínua e execute a regressão linear de baunilha. 2. Execute regressão logística probit e logística nominal e ordinal 3. Use MARS e / ou outro tipo de regressão não linear

Eu estou familiarizado com a regressão linear. MARS é bem descrito por Hastie e Tibshirani. Mas estou perplexo quando se trata de logit / probit ordinal, especialmente com tantas variáveis e um grande conjunto de dados.

O pacote r glmnetcr parece ser minha melhor aposta até agora, mas a documentação dificilmente é suficiente para me levar onde eu preciso estar.

Onde posso aprender mais?

r logistic-regression

— Matt Hall
fonte

Eu sugiro que você adicione a tag R também.

— precisa

11

Como essa é uma pergunta sobre o modelo estatístico, você pode acessar o site CrossValidated , mas lembre-se de que é uma prática terrível postar as perguntas de maneira cruzada: você pode formulá-lo para destacar os problemas metodológicos que você estão enfrentando ou migram toda a questão.

— Stask

Sem realmente explicar o porquê, o ISL observa (na pág. 137) que a análise discriminante (como LDA, QDA) é mais frequentemente usada do que várias extensões de classe de regressão logística. Pacotes como o LDA penalizado podem, portanto, ser examinados.

— MattBagg

6

Sugiro este tutorial sobre logit ordenado: http://www.ats.ucla.edu/stat/r/dae/ologit.htm

Ele mostra o uso de polrno MASSpacote e também explica as suposições e como interpretar os resultados.

— nassimhddd
fonte

6

Um pacote R bastante poderoso para regressão com uma resposta categórica ordinal é o VGAM, no CRAN. A vinheta contém alguns exemplos de regressão ordinal, mas é certo que eu nunca tentei em um conjunto de dados tão grande, então não posso estimar quanto tempo pode levar. Você pode encontrar algum material adicional sobre o VGAM na página do autor . Como alternativa, você pode dar uma olhada no companheiro de Laura Thompson no livro de Agresti, "Categorical Data Analysis". O capítulo 7 do livro de Thompson descreve modelos de logit cumulativos, que são freqüentemente usados com respostas ordinais.

Espero que isto ajude!

— GdA
fonte

3

Se você não estiver totalmente familiarizado com a regressão ordinal, tentarei ler o capítulo Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) primeiro sobre o tópico - embora não tenha sido escrito para R, o livro é muito bom em transmitir a lógica geral e os "faça" e "não faça".

Como uma pergunta: Quais são exatamente as suas respostas? Se eles são algum tipo de escala, como "bom - ruim", seria bom usar uma regressão linear (pesquisa de mercado faz isso o tempo todo ...), mas se os itens forem mais disjuntos, uma regressão ordinal pode ser melhor . Lembro-me vagamente de que alguns livros sobre modelagem estrutural de equatiotões mencionavam que a regressão linear era superior para boas escalas do que probit-bit.

O problema mais sério pode ser o número de variáveis dummy - algumas centenas de variáveis dummy tornarão a análise lenta, difícil de interpretar e provavelmente instável - existem casos suficientes para cada combinação dummy / dummy?

— Christian Sauer
fonte

3

Uma referência padrão escrita da perspectiva das ciências sociais é o livro Limited Dependent Variables, de J Scott Long . É muito mais profundo do que o que Tabachnik sugeriu em outra resposta : Tabachnik é, na melhor das hipóteses, um livro de receitas, com poucas ou nenhuma explicação sobre o "porquê", e parece que você se beneficiaria de descobrir isso com mais detalhes que podem ser encontrados em Long's livro. A regressão ordinal deve ser abordada na maioria dos cursos introdutórios de econometria (o Cross-Section and Panel Data de Wooldridge é um ótimo livro para estudantes de graduação), bem como nos cursos quantitativos de ciências sociais (sociologia, psicologia), embora eu imagine que o último retornará. ao livro de Long.

Dado que o número de variáveis é wa-a-ay menor do que o tamanho da amostra, o pacote de R você deve estar procurando é provavelmente ordinalmais do que glmnetcr. Outra resposta mencionou que você pode encontrar essa funcionalidade em um MASSpacote mais popular .

— StasK
fonte