Estou pensando em um problema que é prever o log (gasto) de um cliente usando regressão linear.
Estou pensando em quais recursos usar como entrada e me perguntando se seria bom usar o percentil de uma variável como entradas.
Por exemplo, eu poderia usar a receita das empresas como insumo. O que eu quero saber é se eu poderia usar o percentil de receita da empresa.
Outro exemplo seria um classificador de indústria categórico (NAICS) - se eu visse o gasto médio por código NAICS e depois atribuísse cada código NAICS a um 'Percentil NAICS', seria uma variável explicativa válida que eu poderia usar?
Gostaria de saber se há algum problema a ser observado ao usar percentis? De certa forma, é equivalente a um tipo de dimensionamento de recurso?