Em Modelagem Preditiva Aplicada de Kuhn e Johnson, os autores escrevem:
Finalmente, essas árvores sofrem viés de seleção: preditores com um número maior de valores distintos são favorecidos em detrimento de preditores mais granulares (Loh e Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh e Shih (1997) observaram que “O perigo ocorre quando um conjunto de dados consiste em uma mistura de variáveis informativas e de ruído, e as variáveis de ruído têm muito mais divisões do que as variáveis informativas. Depois, há uma alta probabilidade de que as variáveis de ruído sejam escolhidas para dividir os nós superiores da árvore. A poda produzirá uma árvore com estrutura enganosa ou nenhuma árvore. ”
Kuhn, Max; Johnson, Kjell (17/05/2013). Modelagem Preditiva Aplicada (Locais Kindle 5241-5247). Springer Nova Iorque. Edição Kindle.
Eles continuam descrevendo algumas pesquisas sobre a construção de árvores imparciais. Por exemplo, o modelo GUIA de Loh.
Permanecendo o mais estritamente possível dentro da estrutura do CART, estou me perguntando se há algo que eu possa fazer para minimizar esse viés de seleção. Por exemplo, talvez agrupar / agrupar preditores de alta cardinalidade seja uma estratégia. Mas em que grau devemos fazer o agrupamento? Se eu tiver um preditor com 30 níveis, devo agrupar para 10 níveis? 15? 5?