Qual é a diferença entre uma codificação quente e outra excluída?


13

Estou lendo uma apresentação e ela recomenda não usar a codificação deixar uma de fora, mas tudo bem com uma codificação quente. Eu pensei que ambos eram iguais. Alguém pode descrever quais são as diferenças entre eles?


1
Não está claro (apenas da sua pergunta) o que é deixar de fora. Você deve editá-lo para fornecer um ponteiro e explicar brevemente sua compreensão dos dois, e por que você acha que eles são os mesmos.
Sean Owen

Respostas:


15

Eles provavelmente estão usando "deixar uma codificação de fora" para se referir à estratégia de Owen Zhang.

De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

A coluna codificada não é uma variável fictícia convencional, mas é a resposta média em todas as linhas para este nível categórico, excluindo a própria linha. Isso oferece a vantagem de ter uma representação em uma coluna do categórico, evitando o vazamento de resposta direta

Esta imagem expressa bem a ideia. insira a descrição da imagem aqui


Sua explicação é melhor do que wacax de na ligação referido, obrigado
Allan Ruin

Olá @Dex Groves, a codificação leave_one_out para o teste é sempre 0,5.
user7117436

3
Oi! Como visto na figura, este exemplo paticular se refere ao problema de classificação. Alguém tem uma experiência com a codificação LOO no problema de regressão? A principal questão é como agregar a variável de destino. Agora estou fazendo experimentos e tenho uma super adaptação com média (y).
Alexey Trofimov

1
para um problema de agrupamento (não supervisionado), é possível usar esse tipo de codificação?
enneppi

@AlexeyTrofimov - tente uma agregação com uma variação menor. Eu começaria com binning diferente (como 1K, 2K, 2M, .. para grandes valores y int, ou algum arredondamento para uma casa decimal para valores float y) => média (bin_f (y))
Mork
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.