Estou tentando descobrir se estou interpretando corretamente uma árvore de decisão encontrada online.
A variável dependente dessa árvore de decisão é a Classificação de crédito, que possui duas classes, Ruim ou Bom. A raiz desta árvore contém todas as 2464 observações neste conjunto de dados.
O atributo mais influente para determinar como classificar uma classificação de crédito boa ou ruim é o atributo Nível de renda.
A maioria das pessoas (454 de 553) em nossa amostra, com renda inferior à baixa, também teve uma classificação de crédito ruim. Se eu fosse lançar um cartão de crédito premium sem limite, eu deveria ignorar essas pessoas.
Se eu usasse essa árvore de decisão para previsões para classificar novas observações, o maior número de classes em uma folha é usado como previsão? Por exemplo, a observação x possui renda média, 7 cartões de crédito e 34 anos. A classificação prevista para classificação de crédito = "Bom"
Outra nova observação poderia ser a Observação Y, que possui menos que baixa renda, portanto sua classificação de crédito = "Ruim"
Essa é a maneira correta de interpretar uma árvore de decisão ou eu entendi isso completamente errado?