Dados básicos : Eu tenho ~ 1.000 pessoas marcadas com avaliações: '1,' [bom] '2,' [meio] ou '3' [ruim] - esses são os valores que estou tentando prever para as pessoas no futuro . Além disso, tenho algumas informações demográficas: gênero (categórico: M / F), idade (numérico: 17-80) e raça (categórica: preto / caucasiano / latino).
Eu tenho principalmente quatro perguntas:
Inicialmente, eu estava tentando executar o conjunto de dados descrito acima como uma análise de regressão múltipla. Mas eu aprendi recentemente que, como meu dependente é um fator ordenado e não uma variável contínua, devo usar a regressão logística ordinal para algo assim. Eu estava usando inicialmente algo como
mod <- lm(assessment ~ age + gender + race, data = dataset)
: alguém pode me apontar na direção certa?A partir daí, supondo que eu receba coeficientes com os quais me sinto confortável, entendo como conectar apenas valores numéricos para x1, x2 etc. - mas como lidaria com a raça, por exemplo, onde há várias respostas: preto / caucasiano / latino? Portanto, se ele me diz que o coeficiente caucasiano é 0,289 e alguém que estou tentando prever é caucasiano, como faço para reconectá-lo, pois o valor não é numérico?
Eu também tenho valores aleatórios que estão faltando - alguns para raça, outros para sexo, etc. Tenho que fazer algo adicional para garantir que isso não incline nada? (Observei quando meu conjunto de dados é carregado no R-Studio, quando os dados ausentes são carregados como
NA
, R diz algo como(162 observations deleted due to missingness)
- mas se eles são carregados como espaços em branco, isso não faz nada.)Supondo que tudo isso funcione e que eu tenha novos dados com sexo, idade e raça que eu quero prever - existe uma maneira mais fácil no R de executar tudo isso por qualquer que seja a minha fórmula com novos coeficientes, em vez de fazê-lo manualmente? (Se esta pergunta não for apropriada aqui, posso levá-la de volta ao fórum R.)