Para modelagem preditiva, precisamos nos preocupar com conceitos estatísticos, como efeitos aleatórios e não independência de observações (medidas repetidas)? Por exemplo....
Eu tenho dados de 5 campanhas de mala direta (ocorridas ao longo de um ano) com vários atributos e um sinalizador para compra. Idealmente, eu usaria todos esses dados combinados para criar um modelo para compra, considerando os atributos do cliente no momento da campanha. O motivo é que o evento de compra é raro e eu gostaria de usar o máximo de informações possível. Há uma chance de um determinado cliente estar entre 1 e 5 das campanhas - o que significa que não há independência entre os registros.
Isso importa ao usar:
1) Uma abordagem de aprendizado de máquina (por exemplo, árvore, MLP, SVM)
2) Uma abordagem estatística (regressão logística)?
**ADD:**
Meu pensamento sobre modelagem preditiva é se o modelo funciona, use-o. Para que eu nunca tenha realmente considerado a importância de suposições. Pensar no caso que descrevi acima me fez pensar.
Tome algoritmos de aprendizado de máquina como a MLP and SVM
. Eles são usados com sucesso para modelar um evento binário, como no meu exemplo acima, mas também dados de séries temporais claramente correlacionados. No entanto, muitos usam funções de perda que são prováveis e derivadas, assumindo que os erros são iid. Por exemplo, as árvores aumentadas por gradiente em R gbm
usam funções de perda de desvio derivadas do binômio ( Página 10 ).