Os vetores quentes devem ser dimensionados com atributos numéricos


20

No caso de ter uma combinação de atributos categóricos e numéricos, costumo converter os atributos categóricos em um vetor quente. Minha pergunta é: deixo esses vetores como estão e dimensiono os atributos numéricos por meio de padronização / normalização, ou devo dimensionar os vetores quentes juntos com os atributos numéricos?

Respostas:


11

Depois de convertidos para a forma numérica, os modelos não respondem de maneira diferente às colunas com codificação one-hot do que a qualquer outro dado numérico. Portanto, existe um claro precedente para normalizar os valores {0,1} se você estiver fazendo isso por algum motivo para preparar outras colunas.

O efeito de fazer isso dependerá da classe do modelo e do tipo de normalização que você aplicar, mas observei algumas (pequenas) melhorias ao escalar para significar 0, std 1 para dados categóricos codificados com um hot hot, ao treinar redes neurais.

Também pode fazer diferença para as classes de modelo baseadas em métricas de distância.

Infelizmente, como a maioria desses tipos de escolhas, muitas vezes você precisa tentar as duas abordagens e escolher a que tem a melhor métrica.


1
A redação era um pouco clara. Você está dizendo que apenas normaliza colunas com um código quente se normalizou alguma coluna que não seja ohe?
Info5ek 14/02/19

@ Info5ek: Estou dizendo que talvez seja melhor normalizar as colunas com um código quente, e se você já estiver fazendo isso para outras colunas, poderá tentar. Não há regras fixas para isso, muito depende do problema em questão.
Neil Slater
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.