Divulgação completa: Este é o dever de casa. Incluí um link para o conjunto de dados ( http://www.bertelsen.ca/R/logistic-regression.sav )
Meu objetivo é maximizar a previsão de inadimplentes neste conjunto de dados.
Todos os modelos apresentados até agora prevêem> 90% dos não-infratores, mas <40% dos inadimplentes, tornando a eficiência da classificação geral ~ 80%. Então, eu me pergunto se existem efeitos de interação entre as variáveis. Dentro de uma regressão logística, além de testar cada combinação possível, existe uma maneira de identificar possíveis efeitos de interação? Ou, alternativamente, uma maneira de aumentar a eficiência da classificação dos inadimplentes.
Estou empacado, qualquer recomendação seria útil na sua escolha de palavras, código R ou sintaxe SPSS.
Minhas variáveis primárias são descritas no seguinte histograma e gráfico de dispersão (com exceção da variável dicotômica)
Uma descrição das variáveis primárias:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Variáveis adicionais são apenas transformações dos itens acima. Também tentei converter algumas das variáveis contínuas em variáveis categóricas e implementá-las no modelo, sem sorte lá.
Se você deseja colocá-lo no R, rapidamente, aqui está:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)