Variável de indicador para dados binários: {-1,1} vs {0,1}

Estou interessado na interação tratamento-covariáveis no contexto de experiências / ensaios clínicos randomizados, com um binário indicador de atribuição de tratamento . $T$

Dependendo do método / fonte específico, vi e para os sujeitos tratados e os não tratados, respectivamente. $T=\{1,0\}$ $T=\{1, -1\}$

Existe alguma regra prática quando usar ou ? $\{1,0\}$ $\{1, -1\}$

De que maneira a interpretação difere?

binary-data categorical-encoding

— cecefuss
fonte

FWIW ... Este primeiro link fornece uma visão geral bastante abrangente de diferentes esquemas de codificação ... ats.ucla.edu/stat/r/library/contrast_coding.htm Este segundo link discute codificação de indicador (dummy), efeito e ortogonal (contraste) ... faculty.cas.usf.edu/mbrannick/regression/anova1.html

— Mike Hunter

Respostas:

A interpretação do estimador da variável indicador e da interceptação diferem. Vamos começar com : $\{1,0\}$

Digamos que você tenha o seguinte modelo

y_{i} = β_{0} + t r e a t m e n t \cdot β_{1}

$y_i = \beta_0 + treatment\cdot\beta_1$

Onde

t r e a t m e n t = {\begin{cases} 0 & if placebo \\ 1 & if drug \end{cases}

$treatment = \begin{cases} 0 & \text{if placebo} \\ 1 & \text{if drug} \end{cases}$

Nesse caso, você acaba com as seguintes fórmulas para : $y_i$

y_{i} = {\begin{cases} β_{0} + 0 \cdot β_{1} = β_{0} & if placebo \\ β_{0} + 1 \cdot β_{1} = β_{0} + β_{1} & if drug \end{cases}

$y_i = \begin{cases} \beta_0 + 0\cdot\beta_1 = \beta_0 & \text{if placebo} \\ \beta_0 + 1\cdot\beta_1 = \beta_0 + \beta_1 & \text{if drug} \end{cases}$

Portanto, a interpretação de é o efeito do placebo e a interpretação de é a diferença entre o efeito do placebo e o efeito do medicamento. Com efeito, você pode interpretar como a melhoria que o medicamento oferece. $\beta_0$ $\beta_1$ $\beta_1$

Agora vamos ver : $\{-1,1\}$

Você tem o seguinte modelo (novamente):

y_{i} = β_{0} + t r e a t m e n t \cdot β_{1}

$y_i = \beta_0 + treatment\cdot\beta_1$

mas onde

t r e a t m e n t = {\begin{cases} - 1 & if placebo \\ 1 & if drug \end{cases}

$treatment = \begin{cases} -1 & \text{if placebo} \\ 1 & \text{if drug} \end{cases}$

Nesse caso, você acaba com as seguintes fórmulas para : $y_i$

y_{i} = {\begin{cases} β_{0} + - 1 \cdot β_{1} = β_{0} - β_{1} & if placebo \\ β_{0} + 1 \cdot β_{1} = β_{0} + β_{1} & if drug \end{cases}

$y_i = \begin{cases} \beta_0 + -1\cdot\beta_1 = \beta_0 - \beta_1& \text{if placebo} \\ \beta_0 + 1\cdot\beta_1 = \beta_0 + \beta_1 & \text{if drug} \end{cases}$

A interpretação aqui é que é a média do efeito do placebo e do efeito da droga, e é a diferença dos dois tratamentos para essa média. $\beta_0$ $\beta_1$

Então, qual você usa?

A interpretação de em é basicamente uma linha de base. Você define algum tratamento padrão e todos os outros tratamentos (podem haver vários) são comparados com esse padrão / linha de base. Especialmente quando você começa a adicionar outras covariáveis, isso permanece fácil de interpretar com relação à pergunta médica padrão: como esses medicamentos se comparam com um placebo ou com o medicamento estabelecido? $\beta_0$ $\{0,1\}$

Mas, no final, tudo é uma questão de interpretação, que expliquei acima. Portanto, você deve avaliar suas hipóteses e verificar qual interpretação torna o desenho das conclusões o mais direto.

— JAD
fonte

A constante ao usar a codificação -1, 1 é a média se o número de respondentes no grupo tratado for o mesmo que o número de respondentes no grupo de controle.

— Maarten Buis

@MaartenBuis É a média de sse o design é equilibrado, mas caso contrário, ainda é a média dos dois meios de grupo, que é o que eu quis dizer. Mudei a redação para refletir isso.

y

$y$

— JAD 5/11

Útil. Eu sempre tento incentivar o uso do indicador de palavras em vez de falso (como na pergunta original!) Por pelo menos duas razões. Primeiro, ouvi muitas histórias nas quais as apresentações foram muito ruins porque termos como "manequim de gênero" foram mal interpretados como depreciativos ou ofensivos por pessoas menos técnicas. Segundo, o termo manequim faz com que todo o dispositivo pareça um fudge ou esquiva, enquanto é um método perfeitamente limpo e elegante. Não tenho muita chance de mudar práticas entrincheiradas em alguns campos, mas aqui está uma tentativa.

— Nick Cox

Concordado, parece mais profissional também. Além disso, é uma descrição melhor do que está realmente fazendo.

— JAD

Que bom que você concorda. Aqui está uma maneira simples de explicar: é chamado de indicador porque indica!

— Nick Cox

No contexto da regressão linear, é o método mais natural (e padrão) para codificar variáveis binárias (colocando-as no lado esquerdo do lado direito da regressão). Como explica o @Jarko Dubbeldam, é claro que você pode usar a outra interpretação e o significado dos coeficientes será diferente. $x_i \in \{0, 1\}$

Para dar um exemplo de outra maneira, a codificação das variáveis de saída é padrão ao programar ou derivar a matemática subjacente às máquinas de vetores de suporte . (Ao chamar bibliotecas, você deseja passar os dados no formato que a biblioteca espera, que provavelmente é a formulação 0, 1). $y_i \in \{-1, 1\}$

Tente usar a notação que é padrão para o que você está fazendo / usando.

Para qualquer tipo de modelo linear com um termo de interceptação, os dois métodos serão equivalentes no sentido de que estão relacionados por uma simples transformação linear. Matematicamente, não importa se você usa a matriz de dados ou a matriz de dados que é a classificação completa. Em modelos lineares generalizados, seus coeficientes estimados de qualquer maneira serão relacionados pela transformação linear e os valores ajustados serão os mesmos. $X$ $\tilde{X} = XA$ $A$ $A$ $\hat{y}$

— Matthew Gunn
fonte

+1, não consegui pensar em uma configuração em que

foi usada.

{- 1, 1}

$\{-1,1\}$

— JAD

AdaBoost é um outro exemplo que utiliza

y_{i} \in {- 1, 1}

$y_i\in\{-1,1\}$

— Francis

Em geral, você poderia dizer que

é usado predominantemente na classificação, porque torna a aplicação da função de sinal uma maneira viável de classificar.

{- 1, 1}

$\{-1,1\}$

— JAD

@matthewgunn O autor está falando das covariáveis, ou seja, das entradas e não das saídas. O {-1, 1} faz sentido para vetores de suporte para a saída, mas isso não importa para a entrada. Veja aqui: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM

— Francisco Arceo

@FranciscoArceo Ponto realizado; Eu editei para ser mais preciso.

— Matthew Gunn

Isso é mais abstrato (e talvez inútil), mas observarei que essas duas representações são, em sentido matemático, na verdade representações de grupo, e há um isomorfismo entre elas.

$T$ $T_1$ $T_2$ $T_1 \Leftrightarrow T_2$ $\mathbb{Z}_2$ ${1,0}$ ${1,-1}$ $a \Leftrightarrow b = 1 - (a+b)$ $a \Leftrightarrow b = ab$ $\phi(a) = 2*a-1$

$p$ $T$ $T \Leftrightarrow T'$ $p' \Leftrightarrow p = pp' + (1-p)(1-p')$ $t(p) = 2p-1$ $t \Leftrightarrow t' = tt'$ $t$

— jwimberley
fonte

Isso é impressionante, mas acho suficiente observar que qualquer correspondência válida entre {-1, 1} e {0, 1} deve ser um para um: não há necessidade de invocar nada além da matemática do ensino médio. Estamos necessariamente falando da mesma informação, apenas codificada de forma diferente.

— Nick Cox