Qual é o nome do operador que pega um vetor categórico e o transforma na representação binária usando a codificação one-hot? Fico pensando desde que estou escrevendo um artigo científico e preciso de um nome adequado para isso.
Qual é o nome do operador que pega um vetor categórico e o transforma na representação binária usando a codificação one-hot? Fico pensando desde que estou escrevendo um artigo científico e preciso de um nome adequado para isso.
Respostas:
Os estatísticos chamam de codificação one-hot como codificação fictícia . Como outros sugeriram (incluindo Scortchi nos comentários), esse não é um sinônimo exato, mas esse é o termo que normalmente seria usado para as variáveis categóricas codificadas em 0-1.
Consulte também: "Variável dummy" versus "variável indicadora" para dados nominais / categóricos
Depende do seu público-alvo.
Como Tim disse, os estatísticos chamam de codificação fictícia, e é isso que eu esperaria ver ao descrever algo como um modelo de regressão. "Variáveis codificadas simuladas foram incluídas para ajustar a localização da loja." Eu acho que chamá-lo de codificação one-hot pareceria um pouco estranho aqui.
No entanto, como outro Tim também disse, a codificação one-hot é bastante comum na literatura de aprendizado de máquina. Isso implica fracamente a existência de nós (como em uma rede neural), fios físicos (em um dispositivo) ou algo assim, pelo menos para mim.
O termo vem da engenharia eletrônica. Basta pensar quem chamaria 1 de "quente"? Somente aqueles que trabalham com eletricidade, onde "quente" ou "ao vivo" significa que há potencial elétrico no fio . "Um quente" refere-se ao projeto do circuito em que o nível discreto do sinal elétrico em um fio seria decodificado em quente / frio em um conjunto de fios. Suponho que algumas pessoas de aprendizado de máquina com experiência em EE achem a analogia convincente.
Em econometria e estatística, você pode encontrar dummy
ou indicator
variáveis, que são bastante semelhantes porque são usadas para representar categorias distintas com seus indicadores distintos. Há uma diferença sutil, no entanto. Por exemplo, você faz manequins K-1 para categorias K, porque a categoria base corresponde a todos os manequins definidos como 0. Em contraste, acho que em uma codificação quente você tem fios K, em que a categoria base terá seu próprio fio ( variável).
Sou estatisticamente treinado e recentemente ouvi falar de "one-hot encoding" em machine learning / comp sci lit. Normalmente, acabei de me referir à matriz de um ponto como uma matriz de design / matriz de dados / quadro de design.
Nas ciências físicas e na engenharia, é chamado delta (generalizado) de Kronecker .
O delta do Kronecker é realmente útil no Sigma / Pi / Einstein / etc. notações, pois permite que os termos sejam especificados condicionalmente.
Apenas para relacionar isso a estruturas de programação comuns, o delta do Kronecker condition?1:0
, onde ?:
é o operador condicional .