Várias fontes sugerem que existem muitas consequências negativas da discretização (categorização) de variáveis contínuas antes da análise estatística (amostra de referências [1] - [4] abaixo).
Por outro lado, [5] sugere que algumas técnicas de aprendizado de máquina são conhecidas por produzir melhores resultados quando variáveis contínuas são discretizadas (também observando que os métodos supervisionados de discretização têm melhor desempenho).
Estou curioso para saber se existem benefícios ou justificativas amplamente aceitos para essa prática, do ponto de vista estatístico?
Em particular, haveria justificativa para discretizar variáveis contínuas em uma análise GLM?
[1] Royston P, Altman DG, Sauerbrei W. Dicotomizando preditores contínuos em regressão múltipla: uma má idéia. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Inflação da taxa de erro Tipo I em regressão múltipla quando variáveis independentes são medidas com erro. The Canadian Journal of Statistics 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Consequências negativas da dicotomização de variáveis preditoras contínuas. Jornal de Pesquisa de Marketing 2003; 40: 366-371.
[4] Harrell Jr FE. Problemas causados pela categorização de variáveis contínuas. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Acesso em 6.9.2004
[5] Kotsiantis, S .; Kanellopoulos, D. "Técnicas de Discretização: Uma pesquisa recente". GESTS Transações internacionais em ciência da computação e engenharia 32 (1): 47–58.