Em que circunstâncias você deseja ou não deseja dimensionar ou padronizar uma variável antes do ajuste do modelo? E quais são as vantagens / desvantagens de escalar uma variável?
Em que circunstâncias você deseja ou não deseja dimensionar ou padronizar uma variável antes do ajuste do modelo? E quais são as vantagens / desvantagens de escalar uma variável?
Respostas:
A padronização é sobre os pesos de diferentes variáveis para o modelo. Se você fizer a padronização "apenas" por uma questão de estabilidade numérica, pode haver transformações que produzam propriedades numéricas muito semelhantes, mas diferentes significados físicos que podem ser muito mais apropriados para a interpretação. O mesmo vale para a centralização, que geralmente faz parte da padronização.
Situações em que você provavelmente deseja padronizar:
Situações em que você não pode querer padronizar:
Você pode fazer algo "intermediário" e transformar as variáveis ou escolher a unidade para que as novas variáveis ainda tenham significado físico, mas a variação no valor numérico não seja tão diferente, por exemplo,
Similar para centralização:
Em geral, eu não recomendo dimensionamento ou padronização, a menos que seja absolutamente necessário. A vantagem ou o apelo de um processo desse tipo é que, quando uma variável explicativa tem uma dimensão e magnitude física totalmente diferente da variável resposta, o escalonamento através da divisão por desvio padrão pode ajudar em termos de estabilidade numérica e permitir comparar efeitos em vários Variáveis explicativas. Com a padronização mais comum, o efeito da variável é a quantidade de alteração na variável de resposta quando a variável explicativa aumenta em um desvio padrão; também indica que o significado do efeito da variável (a quantidade de mudança na variável de resposta quando a variável explicativa aumenta em uma unidade) seria perdido, embora o valor estatístico da variável explicativa permaneça inalterado. Contudo, quando a interação é considerada em um modelo, a escala pode ser muito problemática, mesmo para testes estatísticos, devido a uma complicação que envolve um ajuste de escala estocástica no cálculo do erro padrão do efeito da interação (Preacher, 2003). Por esse motivo, o dimensionamento por desvio padrão (ou padronização / normalização) geralmente não é recomendado, especialmente quando há interações.
Preacher, KJ, Curran, PJ e Bauer, DJ, 2006. Ferramentas computacionais para sondar efeitos de interação em regressão linear múltipla, modelagem multinível e análise de curvas latentes. Jornal de Estatísticas Educacionais e Comportamentais, 31 (4), 437-448.