Você está certo em ambos os aspectos. Consulte a página de Frank Harrell aqui para obter uma longa lista de problemas com o binning de variáveis contínuas. Se você usa algumas caixas, joga muita informação nos preditores; se você usa muitos, tende a se mexer no que deveria ser um relacionamento suave, se não linear, e usa muitos graus de liberdade. Geralmente é melhor usar polinômios ( ) ou splines (polinômios por partes que se juntam sem problemas) para os preditores. Binning é realmente apenas uma boa idéia quando você espera uma descontinuidade na resposta nos pontos de corte - digamos que a temperatura em que algo ferve ou a idade legal para dirigir - e quando a resposta é plana entre eles.x + x2+ …
O valor? - bem, é uma maneira rápida e fácil de levar em consideração a curvatura sem ter que pensar nisso, e o modelo pode ser bom o suficiente para o que você está usando. Tende a funcionar bem quando há muitos dados em comparação com o número de preditores, cada um deles dividido em várias categorias; neste caso, dentro de cada faixa preditora, o intervalo de resposta é pequeno e a resposta média é determinada com precisão.
[Editar em resposta aos comentários:
Às vezes, existem pontos de corte padrão usados em um campo para uma variável contínua: por exemplo, na medicina, as medições da pressão arterial podem ser categorizadas como baixa, média ou alta. Pode haver muitas boas razões para usar esses interruptores quando você apresenta ou aplica um modelo. Em particular, as regras de decisão geralmente se baseiam em menos informações do que as que entram em um modelo e podem ser simples de aplicar. Mas não se segue que esses pontos de corte são apropriados para separar os preditores quando você se encaixa no modelo.
Suponha que alguma resposta varie continuamente com a pressão sanguínea. Se você definir um grupo de pressão alta como um preditor em seu estudo, o efeito que está estimando é a resposta média sobre as pressões sanguíneas específicas dos indivíduos desse grupo. É nãouma estimativa da resposta média de pessoas com pressão alta na população em geral ou de pessoas no grupo de pressão alta em outro estudo, a menos que você tome medidas específicas para fazê-lo. Se a distribuição da pressão arterial na população em geral for conhecida, como eu imagino, será melhor calcular a resposta média de pessoas com pressão alta na população em geral, com base nas previsões do modelo com pressão arterial como variável contínua. A distribuição bruta torna seu modelo apenas aproximadamente generalizável.
Em geral, se você tiver dúvidas sobre o comportamento da resposta entre pontos de corte, ajuste o melhor modelo possível primeiro e use-o para respondê-las.]
[No que diz respeito à apresentação; Eu acho que isso é um arenque vermelho:
(1) A facilidade de apresentação não justifica más decisões de modelagem. (E nos casos em que o binning é uma boa decisão de modelagem, não precisa de justificativa adicional.) Certamente isso é evidente. Ninguém nunca recomenda tirar uma interação importante de um modelo porque é difícil de apresentar.
(2) Seja qual for o tipo de modelo que você se encaixa, você ainda pode apresentar seus resultados em termos de categorias, se achar que isso ajudará na interpretação. Apesar ...
(3) Você deve ter cuidado para garantir que isso não ajude a erros de interpretação, pelas razões expostas acima.
(4) Na verdade, não é difícil apresentar respostas não lineares. A opinião pessoal, claramente, e o público diferem; mas nunca vi um gráfico de valores de resposta ajustados versus valores preditivos confundirem alguém apenas porque é curvado. Interações, logits, efeitos aleatórios, multicolinearidade, ... - tudo isso é muito mais difícil de explicar.]
[Um ponto adicional levantado pelo @Roland é a exatidão da medição dos preditores; ele está sugerindo, eu acho, que a categorização possa ser apropriada quando não forem especialmente precisas. O senso comum pode sugerir que você não melhore as questões, declarando-as com menos precisão, e o senso comum seria correto: MacCallum et al (2002), "Sobre a prática da dicotomização de variáveis quantitativas", Psychological Methods , 7 , 1, pp. 17-19.]