Minha pergunta é: precisamos padronizar o conjunto de dados para garantir que todas as variáveis tenham a mesma escala, entre [0,1], antes de ajustar a regressão logística. A fórmula é:
Meu conjunto de dados tem 2 variáveis, elas descrevem a mesma coisa para dois canais, mas o volume é diferente. Digamos que seja o número de visitas de clientes em duas lojas, e aqui está se um cliente compra. Porque um cliente pode visitar as duas lojas, ou duas vezes a primeira loja, uma vez a segunda loja antes de fazer uma compra. mas o número total de visitas de clientes para a 1ª loja é 10 vezes maior que a segunda loja. Quando eu me encaixo nessa regressão logística, sem padronização coef(store1)=37, coef(store2)=13
; se eu padronizar os dados, então coef(store1)=133, coef(store2)=11
. Algo assim. Qual abordagem faz mais sentido?
E se eu estiver ajustando um modelo de árvore de decisão? Eu sei que os modelos de estrutura em árvore não precisam de padronização, pois o próprio modelo irá ajustá-lo de alguma forma. Mas verificando com todos vocês.
C
alterado. Então você precisa escolher C
depois de padronizar os dados.