Suponha que suas quatro categorias sejam as cores dos olhos (código): marrom (1), azul (2), verde (3), cor de avelã (4) - indicando heterocromia, violeta, vermelho, cinza etc. no momento.
De maneira alguma (que eu possa imaginar no momento), queremos dizer que verde marrom, ou que avelã azul como nossos códigos implicam, mesmo que e .= 2 × 3 = 3 × 1 4 = 2 × 2= 3 ×= 2 ×3 = 3 × 14 = 2 × 2
Portanto (a menos que, por algum motivo , desejemos que esse significado entre em nossas análises), precisamos usar algum tipo de codificação. A codificação fictícia é um exemplo, que elimina esses relacionamentos das histórias estatísticas que queremos contar sobre a cor dos olhos. Codificação de efeitos e codificação de Heckman são outros exemplos.
Atualização: seu exemplo de duas variáveis para quatro categorias não corresponde ao meu entendimento do uso do termo "código fictício", que normalmente implica a substituição de categorias (digamos 4) por variáveis fictícias (classificação de observações por categoria):k - 1kk - 1
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
Aqui a categoria 4 é a categoria de referência, assumindo que há uma constante no seu modelo, como:
y= β0 0+ β1d1 + β2d2 + β3d3 + ε
onde é o valor médio de quando categoria = 4, e os termos associados a cada manequim indicam pela quantidade que muda de para essa categoria. y β y β 0β0 0yβyβ0 0
Se você não tiver um termo constante ( ) no modelo, precisará de mais um preditor "fictício" (talvez denominado "variáveis indicadoras" com menos frequência)). Com efeito, os manequins se comportam como constantes do modelo para cada categoria:β0 0
y= β1d1 + β2d2 + β3d3 + β4d4 + ε
Portanto, isso contornaria a questão da criação de relações quantitativas sem sentido entre os códigos de categoria mencionados anteriormente, mas por que não usar a codificação user12331 como você sugere? candidato A de codificação user12331 A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
Você está certo em apontar que um pode representar 4 valores usando 2 variáveis binárias (isto é, dois bits). Infelizmente, uma abordagem para isso (código1 para as categorias 1 e 2 e código2 para as categorias 3 e 4) deixa a ambiguidade indicada pelos pontos de interrogação: que valores iriam para lá ?!
Bem, que tal uma segunda abordagem, chame-a de candidato B de codificação user12331:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
Lá! Sem ambiguidade, certo? Direita! Infelizmente, tudo o que essa codificação faz é representar as quantidades numéricas 1 a 4 (ou 0 a 3) na notação binária , o que deixa intacto o problema de atribuir esses relacionamentos quantitativos indesejados às categorias.
Daí a necessidade de outro esquema de codificação.
Vou terminar com a ressalva de que os vários esquemas de codificação são mais ou menos uma questão ou estilo (ou seja, o que é que se quer um específico para dizer ) a menos que a pessoa também inclui termos de interação com as categorias no modelo. Em seguida, a codificação fictícia induzirá uma heterocedasticidade artificial e influenciará os erros padrão; portanto, convém manter a codificação de efeito nesse caso (pode haver outros sistemas de codificação que mantêm um seguro nessa circunstância, mas eu não os conheço).β