Você pode usar codificação de variável dummy se os casos. Você também pode aprimorar essa ideia para o seu problema. Ilustrarei o procedimento para uma regressão linear simples.
Imagine que queremos prever a renda de uma pessoa yEu usando anos de educação x1 ipalestras ensinadas x2 itrabalhos publicados x3 i e posição acadêmica atual x4 i. A amostra contém pessoas acadêmicas e não acadêmicas.
1. Alternativa : atribua valores vazios naturais. Por exemplo, se estamos procurando um filho, não faz sentido incluir a renda. Mas a renda tem um valor nulo natural que é0 0. Você pode verificar se suas variáveis também permitem esse valor nulo.
2. Alternativa : você pode dividir o conjunto de dados em dois grupos (acadêmico e não acadêmico). E execute dois modelos separados.
3. Alternativa : introduz uma nova variável dummyis_academic
x5 i essa variável é 0 0 se a pessoa Eu não é acadêmico e o valor é 1 1 se a pessoa Eué acadêmico. Então seu modelo de regressão seria semelhante
yEu=W0 0+W~0 0x5 i+W1 1x1 i+W~1 1x5 ix1 i+W~2x5 ix2 i+W~3x5 ix3 i+ +W~4x5 ix4 i+εEu
Portanto, nosso conjunto de dados não é x1 i,x2 i,x3 i,x4 i,yEu mas x1 i,x5 i,x5 ix1 i,x5 ix2 i,x5 ix3 i,x5 ix4 i,yEuAgora o conjunto de dados está completo, mas o modelo não está mais usando a função base linear.
Da mesma forma, você pode pensar no seu conjunto de dados e introduzir variáveis fictícias quando perceber que alguns recursos estão presentes / são úteis apenas para uma subamostra no seu conjunto de dados.