Como devo lidar com variáveis ​​categóricas com vários níveis ao fazer a eliminação para trás?


12

Estou fazendo um modelo simples de eliminação reversa baseado em AIC, em que algumas variáveis ​​são variáveis ​​categóricas com vários níveis. Essas variáveis ​​são modeladas como um conjunto de variáveis ​​fictícias. Ao fazer a eliminação para trás, devo remover todos os níveis de uma variável juntos? Ou devo tratar cada variável dummy separadamente? E porque?

Como uma pergunta relacionada, a etapa R manipula cada variável dummy separadamente ao fazer a eliminação para trás. Se eu quis remover uma variável categórica inteira de uma só vez, posso fazer isso usando a etapa? Ou existem alternativas para a etapa que podem lidar com isso?


Eu acho que é difícil responder a essa pergunta em um contexto geral. Se possível, você pode fornecer algumas informações sobre quais são seus dados? o que você quer inferir? possíveis suposições, etc. O fornecimento desses detalhes pode nos ajudar a responder melhor às suas perguntas.
suncoolsu

@suncoolsu Não tenho muita liberdade para discutir nada disso. Se for possível responder à pergunta com uma árvore de decisão ('se você estiver assumindo X, faça Y'), isso pode ser realmente útil.
Nerdbound

1
Para maior clareza, você está interessado em interpretar o modelo como causal ou simplesmente em previsão?
Andy W

Sim. Eu concordo com Matt Parker. Além disso, se a coluna de dados do gato tiver 5 entradas, por exemplo, 1,2,3,4,5, o modelo GLM fornecerá 4 colunas para ele, por exemplo, catCol1, catCol2, catCol3, catCol4 e se decidirmos eliminar o catCol com o valor p mais alto, digamos catCol4, os outros três não fazem muito sentido, pois os dados sempre podem possuir o valor de catCol4. Em tal situação, um, o GLM estaria em confusão, e iria mostrar um erro ..
Ebby

Respostas:


7

Eu acho que você teria que remover toda a variável categórica. Imagine uma regressão logística na qual você está tentando prever se uma pessoa tem ou não uma doença. O país de nascimento pode ter um grande impacto nisso, então você o inclui em seu modelo. Se a origem americana americana específica não teve nenhum impacto na AIC e você a descartou, como calcularia para um americano? R usa contrastes de referência para fatores por padrão, então acho que eles seriam calculados apenas no nível de referência (digamos, Botsuana), se houver. Provavelmente isso não vai acabar bem ...y^

Uma opção melhor seria classificar previamente as codificações sensatas do país de nascimento - colapsar na região, continente etc. e descobrir qual delas é mais adequada ao seu modelo.

Obviamente, existem muitas maneiras de usar indevidamente a seleção de variáveis ​​passo a passo, portanto, verifique se está fazendo isso corretamente. Há muito sobre isso neste site, no entanto; procurar "stepwise" traz bons resultados. Isso é particularmente pertinente , com muitos bons conselhos nas respostas.


1
Obrigado pela resposta. Acho que minha preocupação é que, no seu exemplo, se um país de nascimento é um fantástico preditor de uma doença e todos os outros países de origem são ruins, o modelo de eliminação para trás me dirá para remover o país de nascimento, mesmo embora o país de nascimento não seja inútil como covariável. Em outras palavras, pode fazer sentido ter uma única variável para 'você é lituano?' mesmo que o país de nascimento como um todo não preveja bem. Existem maneiras sensatas de lidar com esse tipo de problema?
Nerdbound

2
(+1) Se um país for um grande preditor, todo o grupo de países será significativo e será mantido. @ Matt Parker está correto: mantenha grupos de variáveis ​​fictícias juntas e baseie os critérios de entrada e saída no nível de significância conjunto para todo o grupo, não nos níveis de significância para os manequins individuais.
whuber

2
@whuber OK, mais um comentário potencialmente idiota de mim e, em seguida, ficarei em paz quando entender por que estou errado :-P Parece-me que se estou olhando para a AIC e excluo, digamos, dummies de 200 países como um grupo, a AIC melhorará porque o novo modelo terá menos 200 variáveis ​​e só piorará na medida em que esses manequins sejam bons preditores. Se apenas uma das variáveis ​​for um bom preditor, parece-me que, na rede, a AIC fará com que o modelo com menos 200 variáveis ​​pareça melhor, mas então eu vou estar perdendo essa variável ...
nerdbound

4
@nerdbound Isso não é burro. No entanto, se apenas um dummy em 200 funcionar bem, você realmente terá uma variável categórica diferente: é uma nova variável binária (ou reclassificada). @ Matt Parker aborda esta questão em seu segundo parágrafo. Isso parece uma questão para análise exploratória (que é o que é a regressão por etapas de qualquer maneira). É perfeitamente bom torturar seus dados dessa maneira, mas depois que toda a fumaça desaparece, você precisa testar seu modelo em dados independentes.
whuber

1
Isso pode ser relevante quando há muitos níveis: stats.stackexchange.com/questions/146907/…
kjetil b halvorsen

0

Como no exemplo de países, acho que se a variável dummy para um país específico for selecionada, significa que esse país é um preditor em comparação com todos os outros países combinados (não é necessário criar uma nova variável binária). O problema que tenho muitas vezes são variáveis ​​falsas que refletem, por exemplo, a gravidade de uma doença (como -, +, ++, +++). Às vezes, a variável dummy para ++ é selecionada, mas a variável dummy para +++ não é. Nesse caso, a reclassificação pode ser útil.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.