Eu estava pensando exatamente sobre a mesma pergunta ao analisar os dados mais recentes da National Hospital Discharge Survey . Várias variáveis têm valores ausentes substanciais, como estado civil e tipo de procedimento. Essa questão me chamou a atenção porque essas categorias apresentaram efeitos fortes (e significativos) na maioria das análises de regressão logística que eu estava executando.
Alguém está inclinado a se perguntar por queum código ausente é fornecido. No caso do estado civil, por exemplo, é plausível que o não fornecimento dessas informações possa estar relacionado a fatores importantes, como status socioeconômico ou tipo de doença. No seu caso de pressão alta, devemos perguntar por que o valor não seria conhecido ou recusado? Isso pode estar relacionado a práticas da instituição (talvez refletindo procedimentos relaxados) ou mesmo a indivíduos (como crenças religiosas). Essas características, por sua vez, podem estar associadas ao diabetes. Portanto, parece prudente continuar como você tem, em vez de codificar esses valores como ausentes (excluindo-os completamente da análise) ou tentando imputá-los (o que efetivamente mascara as informações que eles fornecem e pode influenciar os resultados). Realmente não é mais difícil de fazer: você apenas precisa garantir que essa variável seja tratada como categórica e obterá mais um coeficiente no resultado da regressão. Além disso, suspeito que os conjuntos de dados BRFSS sejam grandes o suficiente para que você não precise se preocupar com energia.