Normalização de variáveis ​​dummy


8

Meus dados consistem em várias medições contínuas e em algumas variáveis ​​fictícias que representam os anos em que as medições foram feitas. Agora, quero aprender uma rede neural com os dados. Portanto, estou normalizando o zScore de todas as variáveis, incluindo as variáveis ​​dummy. No entanto, eu me pergunto se essa é uma abordagem razoável, porque normalizar as variáveis ​​dummy altera seus intervalos, o que acho que as torna menos comparáveis ​​se suas distribuições diferirem. Por outro lado, não normalizar as variáveis ​​fictícias também pode ser questionável, porque sem normalização sua influência na saída da rede pode ser abaixo do ideal.

Qual é a melhor abordagem para lidar com variáveis ​​fictícias, normalizando-as (zScore) ou apenas deixando-as como estão?


4
Você pode achar este artigo de A. Gelman interessante stat.columbia.edu/~gelman/research/published/standardizing7.pdf
boscovich

Respostas:


7

A normalização seria necessária se você estiver fazendo alguma forma de medição de similaridade.

As variáveis ​​dummy, por sua natureza, atuam como um comutador binário. Codificá-lo como (0,1) ou (-,5, 0,5) não deve ter impacto nos relacionamentos que exibe para uma variável dependente, se o que você está tentando fazer é alguma forma, regressão ou classificação.

Seria importante se você estivesse executando um cluster, pois seria dependente da escala.


2

Normalizar variáveis ​​fictícias não faz sentido. Normalmente, a normalização é usada quando as variáveis ​​são medidas em escalas diferentes, de forma que uma comparação adequada não seja possível. Com variáveis ​​dummy, no entanto, coloca-se apenas uma informação binária no modelo e, se for normalizada, a informação do impacto de, por exemplo, um ano é perdida.


Então, de acordo com a pergunta, como lidamos com a função de perda?
Afshin Amiri
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.