Quando você classifica usando o logit, é isso que acontece.
O logit prevê a probabilidade de inadimplência (PD) de um empréstimo, que é um número entre 0 e 1. Em seguida, defina um limite D, de forma a marcar um empréstimo como padrão se PD> D e marcá-lo como não- padrão se PD
Naturalmente, em uma população típica de empréstimos PD << 1. Portanto, no seu caso, 7% é uma probabilidade bastante alta de dados de um ano (os PDs são normalmente relatados anualmente). Se esses dados são plurianuais, estamos falando do chamado PD cumulativo. Nesse caso, cumPD = 7% não é um número alto para 10 anos de dados, por exemplo. Portanto, por qualquer padrão, eu não diria que seu conjunto de dados é problemático. Eu descreveria isso pelo menos típico para dados padrão de empréstimo, se não for ótimo (no sentido de que você tem um número relativamente grande de padrões).
Agora, suponha que seu modelo preveja os seguintes três níveis de DP:
- 0,1 (563.426)
- 0,5 (20.000)
- 0,9 (31.932)
Suponha também que os padrões reais para esses grupos sejam:
Agora você pode definir D com valores diferentes e ver como a matriz muda. Vamos usar D = 0,4 primeiro:
- Padrão real, prever não padrão: 0
- Padrão real, padrão de previsão: 41.932
- Não padrão real, prever não padrão: 563.426
- Não padrão real, padrão de previsão: 10.000
Se você definir D = 0,6:
- Padrão real, prever não padrão: 31.932
- Padrão real, predizer padrão: 10.000
- Não padrão real, prever não padrão: 573.426
- Não padrão real, padrão de previsão: 0
Se você definir D = 0,99:
- Padrão real, prever não padrão: 41.932
- Padrão real, padrão de previsão: 0
- Não padrão real, prever não padrão: 573.426
- Não padrão real, padrão de previsão: 0
O último caso é o que você vê nos resultados do seu modelo. Neste caso, estou enfatizando o limite D para um classificador. Uma simples alteração em D pode melhorar certas características da sua previsão. Observe que, nos três casos, o DP previsto permaneceu o mesmo, apenas o limite D mudou.
Também é possível que sua própria regressão do logit seja ruim, é claro. Portanto, nesse caso, você tem pelo menos duas variáveis: a especificação do logit e o limite. Ambos afetam seu poder de previsão.