Como interpretar uma árvore de decisão corretamente?

7

Estou tentando descobrir se estou interpretando corretamente uma árvore de decisão encontrada online.

A variável dependente dessa árvore de decisão é a Classificação de crédito, que possui duas classes, Ruim ou Bom. A raiz desta árvore contém todas as 2464 observações neste conjunto de dados.
O atributo mais influente para determinar como classificar uma classificação de crédito boa ou ruim é o atributo Nível de renda.
A maioria das pessoas (454 de 553) em nossa amostra, com renda inferior à baixa, também teve uma classificação de crédito ruim. Se eu fosse lançar um cartão de crédito premium sem limite, eu deveria ignorar essas pessoas.
Se eu usasse essa árvore de decisão para previsões para classificar novas observações, o maior número de classes em uma folha é usado como previsão? Por exemplo, a observação x possui renda média, 7 cartões de crédito e 34 anos. A classificação prevista para classificação de crédito = "Bom"
Outra nova observação poderia ser a Observação Y, que possui menos que baixa renda, portanto sua classificação de crédito = "Ruim"

Essa é a maneira correta de interpretar uma árvore de decisão ou eu entendi isso completamente errado?

predictive-modeling decision-trees

— DataD
fonte

11

Bem vindo ao site. Essa é uma pergunta muito agradável (+1) :)

— Dawny33

11

@Data_D Você poderia compartilhar como criou a representação gráfica da árvore de decisão?

4

Deixe-me avaliar cada uma de suas observações uma por uma, para que fique mais claro:

A variável dependente dessa árvore de decisão é a Classificação de crédito, que possui duas classes, Ruim ou Bom. A raiz desta árvore contém todas as 2464 observações neste conjunto de dados.

Se Good, Badé isso que você quer dizer com classificação de crédito, então sim . E você está certo com a conclusão de que todas as 2464 observações estão contidas na raiz da árvore.

O atributo mais influente para determinar como classificar uma classificação de crédito boa ou ruim é o atributo Nível de renda.

Debatível Depende de como você considera algo influente . Alguns podem argumentar que o número de cartões pode ser o mais influente, e alguns podem concordar com o seu argumento. Então, você está certo e errado aqui.

A maioria das pessoas (454 de 553) em nossa amostra, com renda inferior à baixa, também teve uma classificação de crédito ruim. Se eu fosse lançar um cartão de crédito premium sem limite, eu deveria ignorar essas pessoas.

Sim , mas também seria melhor se você considerar a probabilidade de receber um crédito ruim dessas pessoas. Mas, mesmo isso acabaria sendo NÃO para esta classe, o que tornará sua observação correta novamente.

Se eu usasse essa árvore de decisão para previsões para classificar novas observações, o maior número de classes em uma folha é usado como previsão? Por exemplo, a observação x possui renda média, 7 cartões de crédito e 34 anos. A classificação prevista para classificação de crédito = "Bom"

Depende da probabilidade . Portanto, calcule a probabilidade a partir das folhas e tome uma decisão dependendo disso. Ou muito mais simples, use uma biblioteca como o classificador da árvore de decisão do Sklearn para fazer isso por você.

Outra nova observação poderia ser a Observação Y, que possui menos que baixa renda, portanto sua classificação de crédito = "Ruim"

Novamente, o mesmo que a explicação acima.

Essa é a maneira correta de interpretar uma árvore de decisão ou eu entendi isso completamente errado?

Sim , esta é uma maneira correta de interpretar árvores de decisão. Você pode ficar tentado a influenciar a seleção de variáveis influentes , mas isso depende de muitos fatores, incluindo a declaração do problema, a construção da árvore, o julgamento do analista etc.

— Dawny33
fonte

11

Para calcular a probabilidade de observação dos ratings de crédito de X e Y usando a fórmula encontrada no link fornecido: # (NodeCondition & Attr = Value) / # (NodeCondition) Observação X P (Bom) = 272/483 = 0,56 P (Ruim) = 211/483 = 0,44 Observação Y P (Bom) = 99/553 = 0,18 P (Ruim) = 454/553 = 0,82 Eu fiz isso corretamente?

— DataD

Desculpe, parece que não consigo usar quebras de linha :(

— DataD

@DataNewb Sim, você está no caminho certo :)

— Dawny33

2

Sim, sua interpretação está correta. Cada nível em sua árvore está relacionado a uma das variáveis (esse nem sempre é o caso das árvores de decisão, você pode imaginá-las sendo mais gerais).

X tem renda média, então você vai para o Nó 2 e mais de 7 cartões, para o Nó 5. Agora, você alcançou um nó folha. você vê que em seu conjunto de dados, você tinha 54 pessoas como X, que determinou ter uma classificação Ruim (um humano presumivelmente fez essa classificação com base em outros fatores. E você teve 336 pessoas como X que tiveram uma classificação Boa. Portanto, com base em somente essas informações, você pode dizer que X provavelmente tem uma classificação Bom. Portanto, a árvore de decisão forneceu uma resposta rápida, embora aproximada.
- Ponto lateral: O 54 vs 336 aqui oferece uma medida de confiança. Por exemplo, você poderia tratá-lo como uma probabilidade. Você poderia dizer $P(Good)=336/(54+336) \approx 0.86$ e também calcule um intervalo de confiança de várias maneiras.
Y tem baixa renda, então você pode olhar imediatamente para a árvore e ir para o nó 1 e dizer que ele provavelmente tem uma classificação ruim, com $P(Bad)=454/(454+99) \approx 0.82$ .

Em relação ao comentário sobre o atributo "mais influente", isso realmente depende da maneira como a árvore é construída e de qual definição de "influente" você usa. Então, você teria que perguntar à pessoa / software / algoritmo que criou a árvore. É certamente um atributo importante, como você pode ver na própria tabela.

— Harsh
fonte