"Variáveis dicotômicas do preditor", existem duas maneiras de codificar preditores dicotômicos: usando o contraste 0,1 ou o contraste 1, -1.
Isso está realmente errado. Não há limite para o número de maneiras pelas quais eles podem ser codificados. Esses dois são apenas os mais comuns (de fato entre eles, quase onipresentes) e provavelmente os mais fáceis de lidar.
Eu meio que entendo a distinção aqui (0,1 é codificação fictícia e 1, -1 adiciona a um grupo e subtrai do outro), mas não entendo qual usar na minha regressão.
O que for mais conveniente / apropriado. Se você tiver um experimento projetado com números iguais em cada um, há alguns aspectos interessantes da segunda abordagem; se você não fizer o primeiro, provavelmente é mais fácil de várias maneiras.
Por exemplo, se eu tiver dois preditores dicotômicos, sexo (m / f) e atleta (s / n), eu poderia usar contrastes 0,1 em ambos ou 1, -1 em ambos.
Qual seria a interpretação de um efeito principal ou um efeito de interação ao usar os dois contrastes diferentes?
a) (i) Considere um efeito principal de gênero (sem interação para simplificar) {m = 0, f = 1} - então o coeficiente correspondente àquele manequim medirá a diferença na média entre mulheres e homens (e a interceptação seria a média dos machos).
(ii) Para {m = -1, f = 1}, o efeito principal do gênero é metade da diferença na média e a interceptação é a média das médias (se o design for equilibrado, também será a média de todos os dados) . Equivalentemente, o principal efeito é a diferença de cada grupo em relação à interceptação.
b) (i) considere uma interação entre gênero {m = 0, f = 1} e atleta {n = 0, y = 1}
Agora, a interceptação representa a média dos não atletas do sexo masculino (0,0), o efeito principal do gênero é a diferença entre as médias das não atletas do sexo feminino e dos não atletas do sexo masculino, o efeito principal do atleta representa a diferença entre a média dos atletas do sexo masculino e do não atleta do sexo masculino e a interação é a diferença de duas diferenças - é a diferença média de atleta / não atleta para mulheres menos a diferença média de atleta / não atleta para marcas.
(ii) considere uma interação entre sexo {m = -1, f = -1} e atleta {n = -1, y = 1}
Agora, a interceptação representa a média das quatro médias de grupo (e se o design fosse completamente equilibrado, também seria a média geral). A interceptação é um quarto do que era antes.
Os principais efeitos são as médias dos efeitos das diferenças - o efeito de gênero é a média da diferença entre homens e mulheres nos atletas e a diferença entre homens e mulheres entre os não atletas. O principal efeito do atleta é a média da diferença atleta / não atleta entre mulheres e a diferença atleta / não atleta entre homens.
Depende se minhas células são de tamanhos diferentes?
O que você quer dizer com 'tamanhos diferentes'? Você quer dizer que o número de observações em cada célula é diferente? (Em caso afirmativo, mencionei em grande parte que números de células acima iguais dão significados adicionais / simplificam a interpretação, como tornar a interceptação a grande média dos dados, em vez de apenas a média das médias de grupo.)