Você deveria padronizar variáveis ​​binárias?


25

Eu tenho um conjunto de dados com um conjunto de recursos. Alguns deles são binários ativo ou acionado, inativo ou inativo) e o restante é valorizado de verdade, por exemplo, .(1=0=4564.342

Eu quero alimentar esses dados para um algoritmo de aprendizado de máquina, de modo que -Score todas as características de valor real. Eu os pego entre os intervalos e aproximadamente. Agora, os valores binários são também -scored, portanto, os zeros se tornar e os tornar .z32z0.2220.5555

Padronizar variáveis ​​binárias como essa faz sentido?

Respostas:


14

Padronizar variáveis ​​binárias não faz sentido. Os valores são arbitrários; eles não significam nada em si mesmos. Pode haver uma justificativa para a escolha de alguns valores como 0 e 1, com relação a problemas de estabilidade numérica, mas é isso.


e se eles estivessem entre 0 e 100. Como eu disse, eles significam coisas como "reconhecer um rosto" e "rosto não reconhecido" e 0-100 significa o nível de confiança. Faz sentido z-score isso?
siamii

Seu exemplo de 0 a 100 soa como uma classificação ordinal. Há um pouco de detalhes sobre como lidar melhor com essa situação e isso foi discutido bastante no CV. Pesquise na tag ordinal para saber mais.
gung - Restabelece Monica

bem, o problema é que apenas algumas das variáveis ​​são de 0 a 100. Outros são, por exemplo, -400 - +400
siamii

Qual é o problema com isso? Este é um problema de estabilidade numérica?
gung - Restabelece Monica

talvez você sugira que eu não faça z-score?
siamii

14

Uma variável binária com valores 0, 1 pode (geralmente) ser dimensionada para (valor - média) / DP, que é presumivelmente o seu z-score.

A restrição mais óbvia disso é que, se você conseguir todos os zeros ou todos, ligar o SD cegamente significaria que o escore z é indeterminado. Há um caso de atribuir zero também, na medida em que value - mean é identicamente zero. Mas muitas coisas estatísticas não farão muito sentido se uma variável for realmente uma constante. De maneira mais geral, porém, se o DS for pequeno, há mais risco de que os escores sejam instáveis ​​e / ou não sejam bem determinados.

Um problema para dar uma resposta melhor à sua pergunta é precisamente o "algoritmo de aprendizado de máquina" que você está considerando. Parece que é um algoritmo que combina dados para várias variáveis ​​e, portanto, geralmente faz sentido fornecê-los em escalas semelhantes.

(MAIS TARDE) Como o pôster original adiciona comentários um por um, a pergunta deles está se transformando. Eu ainda considero que (valor - média) / SD faz sentido (isto é, não faz sentido) para variáveis ​​binárias, desde que o SD seja positivo. No entanto, a regressão logística mais tarde foi nomeada como o aplicativo e, para isso, não há ganho teórico ou prático (e, de fato, alguma perda de simplicidade) em algo além de alimentar variáveis ​​binárias como 0, 1. Seu software deve ser capaz de lidar bem com aquele; caso contrário, abandone esse software em favor de um programa que possa. Em termos da pergunta do título: can, yes; deveria, não.


3
A resposta curta é que isso não significa nada diferente e não vejo razão para que alterar 0, 1 para z-scores ajude qualquer coisa nessa situação. Para se convencer, tente dos dois lados e veja que nada importante muda.
Nick Cox

3
Pelo contrário, acho que a maioria das pessoas usaria 0, 1 aqui.
Nick Cox

11
Quando você está fazendo regressão logística, o software quase certamente executará a padronização sob o capô (para obter melhores propriedades numéricas). Portanto, é uma boa ideia manter o indicador binário expresso de maneira significativa. Padronizar não parece bom nem útil.
whuber

11
Qualquer método de aprendizado de máquina que exija a padronização de preditores binários é suspeito.
18713 Frank Harrell

2
Como é sua própria implementação, ninguém mais tem base para lhe dar uma resposta objetiva! Você precisa examinar como o software trata os dados para decidir se a padronização anterior faz sentido.
whuber

3

Um bom exemplo em que pode ser útil padronizar de uma maneira ligeiramente diferente é dado na seção 4.2 de Gelman e Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Isso ocorre principalmente quando a interpretação dos coeficientes é de interesse e, talvez, quando não há muitos preditores.

Lá, eles padronizam uma variável binária (com proporção igual de 0 e 1) por vez do normalσ. Em seguida, estes coeficientes padronizados assumir valores±0,5e, em seguida, os coeficientes de reflectir comparações entrex=0ex=1directamente. Se escalado porσ, o coeficiente corresponderia à metade da diferença entre os possíveis valores dex.

xμx2σx,
σ±0.5x=0x=1σx

Por favor, explique "com proporção igual de 0 e 1", pois as variáveis ​​binárias que vejo raramente são assim.
Nick Cox

Eu não acho que a proporção realmente fará diferença, eles apenas a usam para tornar o exemplo mais limpo.
de Gosset Student

1

O que você deseja padronizar, uma variável aleatória binária ou uma proporção?

Não faz sentido padronizar uma variável aleatória binária. A variável aleatória é uma função que atribui um valor real para um evento . Nesse caso, 0 para falha e 1 para sucesso, ou seja, Y { 0 , 1 } .Y:SRY{0,1}

No caso de uma proporção, essa não é uma variável aleatória binária, é uma variável contínua , x R + .X[0,1]xR+


0

Na regressão logística, variáveis ​​binárias podem ser padronizadas para combiná-las com contínuos vars quando você deseja fornecer a todos eles um prior não informativo, como N ~ (0,5) ou Cauchy ~ (0,5). Recomenda-se que a padronização seja a seguinte: Faça a contagem total e dê

1 = proporção de 1s

0 = 1 - proporção de 1s.

-----

Edit: Na verdade, eu não estava certo, não é uma padronização, mas uma mudança para ser centrado em 0 e diferir por 1 nas condições inferior e superior, digamos que uma população esteja 30% na empresa A e 70% na outra, podemos definir a variável "Empresa A" centralizada para assumir os valores -0,3 e 0,7.


Não pode entender isso como uma padronização.
Michael R. Chernick 31/03
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.