Viés de seleção nas árvores

Em Modelagem Preditiva Aplicada de Kuhn e Johnson, os autores escrevem:

Finalmente, essas árvores sofrem viés de seleção: preditores com um número maior de valores distintos são favorecidos em detrimento de preditores mais granulares (Loh e Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh e Shih (1997) observaram que “O perigo ocorre quando um conjunto de dados consiste em uma mistura de variáveis informativas e de ruído, e as variáveis de ruído têm muito mais divisões do que as variáveis informativas. Depois, há uma alta probabilidade de que as variáveis de ruído sejam escolhidas para dividir os nós superiores da árvore. A poda produzirá uma árvore com estrutura enganosa ou nenhuma árvore. ”

Kuhn, Max; Johnson, Kjell (17/05/2013). Modelagem Preditiva Aplicada (Locais Kindle 5241-5247). Springer Nova Iorque. Edição Kindle.

Eles continuam descrevendo algumas pesquisas sobre a construção de árvores imparciais. Por exemplo, o modelo GUIA de Loh.

Permanecendo o mais estritamente possível dentro da estrutura do CART, estou me perguntando se há algo que eu possa fazer para minimizar esse viés de seleção. Por exemplo, talvez agrupar / agrupar preditores de alta cardinalidade seja uma estratégia. Mas em que grau devemos fazer o agrupamento? Se eu tiver um preditor com 30 níveis, devo agrupar para 10 níveis? 15? 5?

cart bias

— dal233
fonte

Aqui está uma pergunta e resposta relacionada .

— dal233

Lembre-se de que o CART não se inclina apenas contra fatores com muitos níveis, mas também com variáveis potencialmente contínuas se o tamanho da sua amostra for grande. Existe algum motivo específico para você permanecer na estrutura do CART? Além do GUIDE, as árvores de inferência condicional são outra opção para evitar o viés de seleção.

— dmartin

Minha impressão é que há mais códigos de prateleira escritos para o CART e, além disso, quero manter as coisas simples de explicar.

— dal233

Quando eu disse "código de prateleira escrito para o CART" - eu também quis dizer todo o ecossistema ao redor do CART. Como por exemplo rpart.plot.

— dal233

ctree e você verá que o pacote do partido possui muitos dos mesmos recursos que o rpart. Falta de dados é tratada através splits substitutos bem

— dmartin

Com base no seu comentário, eu usaria uma estrutura de inferência condicional. O código está prontamente disponível no R, usando a função ctree no pacote de terceiros. Ele possui seleção de variáveis imparcial e, embora o algoritmo subjacente a quando e como fazer divisões seja diferente em comparação ao CART, a lógica é essencialmente a mesma. Outro benefício destacado pelos autores (veja o artigo aqui ) é que você não precisa se preocupar tanto em podar a árvore para evitar o excesso de ajuste. O algoritmo realmente cuida disso usando testes de permutação para determinar se uma divisão é "estatisticamente significativa" ou não.

— dmartin
fonte