As interações são necessárias explicitamente nos modelos de regressão porque a fórmula não inclui nenhuma interação por si só. Mais precisamente, um modelo de regressão sempre será linear em sua entrada, enquanto uma interação é uma combinação não-linear dos recursos.Xi∗Xj
A maneira mais simples de ver isso é através do Problema XOR, um modelo de regressão sem interações não pode resolver isso, pois requer uma combinação não linear.
KNNs e SVMs, por outro lado (e muitos outros modelos também) são aproximadores de funções universais. Isso significa que eles não podem apenas combinar suas entradas de maneira linear, mas também de qualquer maneira não linear possível. Com camadas suficientes ou um kernel adequado, eles podem basicamente "criar" suas próprias interações, exatamente como elas precisam. Porém, se você sabe ou espera que interações específicas sejam importantes, ainda pode usá-las como uma entrada para orientar os modelos na direção certa.
Da mesma forma, os modelos baseados em árvore podem ser interpretados como consistindo apenas de interações. Basicamente, uma divisão em um modelo baseado em árvore cria uma interação específica com todas as variáveis anteriores.
Portanto, para decidir quais interações usar, para modelos suficientemente "de alta potência" (isto é, aqueles que são aproximadores de funções universais), você não precisa deles e pode deixar o modelo fazer sua própria mágica. Para outros modelos, isso depende. Existem algumas técnicas disponíveis para orientar a decisão, como CHAID ou regressão passo a passo. O CHAID também trabalha com um grande número de recursos; para regressão passo a passo, ele pode se perder no número de possíveis interações. Dado que, se você tiver recursos, existem interações possíveis (contando não apenas as interações bidirecionais, mas também as de ordem superior).N2N