Valores sem sentido de variáveis aninhadas não devem afetar seu modelo:
O desiderato crucial com esse tipo de análise de dados é que a nested
variável não deve impactar o modelo se a explanatory
variável original não o admitir como variável significativa. Em outras palavras, o modelo deve ter um formato que ignore valores sem sentido da variável aninhada . Esse é um requisito crucial para um modelo válido com variáveis aninhadas, pois garante que a saída do modelo não seja afetada por opções de codificação arbitrárias.
Modelagem com variáveis aninhadas: esse requisito é alcançado colocando a nested
variável no modelo apenas como uma interação com a explanatory
variável original , sem incluí-la como efeito principal. (Mais especificamente, a variável aninhada deve ser interagida com uma declaração lógica na variável explicativa, indicando que é uma variável significativa.) Observe que essa é uma exceção à regra geral de que termos não devem ser incluídos como interações sem um termo de efeito principal. .
Considere o caso geral em que a nested
variável só é significativa quando a explanatory
variável está em algum conjunto de valores A
. Nesse caso, você usaria um formulário de modelo como este:
response ~ 1 + explanatory + (explanatory %in% A):nested + ...
No caso comum em que sua explanatory
variável é uma variável indicadora (com o valor de uma que dá origem a uma variável aninhada significativa), esse formulário de modelo simplifica isso:
response ~ 1 + explanatory + explanatory:nested + ...
Observe que nessas declarações de modelo não há termo de efeito principal para a nested
variável. Isso ocorre por design --- a variável aninhada não deve ter um termo de efeito principal, pois não é uma variável significativa na ausência de uma condição na variável explicativa. Com esse tipo de modelo, você obterá uma estimativa para o efeito da variável explicativa e outra estimativa para o efeito da variável aninhada.
Codificando variáveis aninhadas em seus dados: Ao lidar com quadros de dados que listam as variáveis para a regressão, é uma boa prática que os valores da nested
variável sejam codificados, como NA
nos casos em que não surgem significativamente da variável explicativa. Isso diz ao leitor que não há variável significativa aqui. Alguns analistas codificam essas variáveis com outros valores, como zero, mas isso geralmente é uma prática ruim, pois pode ser confundida com uma quantidade significativa.
Matematicamente, se você multiplicar qualquer número real por zero, obtém zero. No entanto, se você estiver codificando R
, deve ser cuidadoso aqui, porque o programa se multiplica 0:NA
para dar em NA
vez de 0
. Isso significa que pode ser necessário codificar novamente os NA
valores para zero para fins de ajuste do modelo ou construir a matriz de design para o modelo, para que esses valores sejam definidos como zero.
Casos em que a variável base é uma função da variável aninhada: Uma situação que ocasionalmente surge na análise de regressão envolvendo variáveis aninhadas é o caso em que a variável aninhada possui uma quantidade de detalhes suficiente para determinar completamente a variável explicativa inicial da qual é originária - - ou seja, a variável explicativa original é uma função da variável aninhada. Um exemplo disso ocorre nesta questão , em que o analista possui uma variável indicadora DrugA
para saber se um medicamento foi ou não tomado e uma variável aninhada DrugA_Conc
para a concentração do medicamento. Neste exemplo, a última variável permite um valor de concentração igual a zero, que é equivalente ao fármaco que não está sendo tomado e, portanto, DrugA
é equivalente a DrugA_Conc != 0
.
Nesses tipos de casos, o termo de interação entre a variável explicativa e a variável aninhada é funcionalmente equivalente à variável aninhada e, portanto, é possível (e geralmente desejável) remover a variável explicativa inicial do modelo completamente e simplesmente usar o variável aninhada por conta própria. Isso é legítimo nesse caso, porque os valores na variável aninhada determinam o valor da variável explicativa inicial. Observamos acima que geralmente é apropriado codificar variáveis aninhadas como NA
quando as condições para elas não são aplicáveis. Se a condição surgir de uma variável explicativa que é um indicador, e o indicador corresponder ao uso da variável aninhada, o evento nested != NA
será equivalente aexplanatory
. Nesses casos, é possível recodificar a variável aninhada para que a variável explicativa inicial não seja necessária no modelo.
Observe que é preciso ter cuidado ao analisar esta situação. Mesmo no caso de você estar usando uma variável explicativa inicial que é uma variável indicadora, pode ser útil para fins de interpretação não mesclar a variável explicativa e a variável aninhada. Além disso, nos casos em que a variável explicativa não é uma variável indicadora, geralmente ela contém informações não contidas na variável aninhada e, portanto, não pode ser removida.