A análise de regressão responde à pergunta: "Qual é o valor MÉDIO Y para quem forneceu valores X?" ou, equivalentemente, "Quanto é previsto que Y mude EM MÉDIA se trocarmos X por uma unidade?" O erro de medição aleatória não altera os valores médios de uma variável ou os valores médios para subconjuntos de indivíduos, portanto, o erro aleatório na variável dependente não influencia as estimativas de regressão.
Digamos que você tenha dados de altura em uma amostra de indivíduos. Essas alturas são medidas com muita precisão, refletindo com precisão a verdadeira estatura de todos. Dentro da amostra, a média para homens é 175 cm e a média para mulheres é 162 cm. Se você usar a regressão para calcular quão bem o sexo prediz altura, estimará o modelo
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Se as mulheres são codificadas como 0 e os homens como 1, é a média feminina, ou 162 cm. O coeficiente de regressão mostra quanta altura muda ON MÉDIA quando você altera por uma unidade (de 0 a 1). é igual a 13 porque pessoas cujo valor para é 0 (mulheres) têm uma altura média de 162 cm, enquanto pessoas cujo valor para é 1 (homens) têm uma altura média de 175 cm; estima a diferença média entre as alturas de homens e mulheres, que é de 13 cm. ( reflete a variação de altura dentro do sexo.)β G E N D E R β G E N D E R G E N D E R β R E S I D U A LCONSTANTβGENDERβGENDERGENDERβRESIDUAL
Agora, se você adicionar aleatoriamente -1 cm ou +1 cm à altura real de todos, o que acontecerá? Indivíduos cuja altura real é, digamos, 170 cm serão agora relatados como sendo 169 ou 171 cm. No entanto, a média da amostra, ou qualquer subamostra, não será alterada. Aqueles cuja altura real é 170 cm terão uma média de 170 cm no novo conjunto de dados incorreto, as mulheres terão uma média de 162 cm etc. Se você executar novamente o modelo de regressão especificado acima usando esse novo conjunto de dados, o valor (esperado) de não será alterado porque a diferença média entre homens e mulheres ainda é de 13 cm, independentemente do erro de medição. (O erro padrão de será maior que antes, porque a variação da variável dependente agora é maior.)βββ
Se houver um erro de medição na variável independente, e não na variável dependente, será uma estimativa tendenciosa. Isso é fácil de entender quando você considera o exemplo de altura. Se houver um erro aleatório de medição na variável , alguns homens serão erroneamente codificados como femininos e vice-versa. O efeito disso é reduzir as diferenças aparentes de gênero na altura, porque mover homens para o grupo feminino fará com que a média feminina seja maior, enquanto mover mulheres para o grupo masculino fará com que o masculino seja menor. Com erro de medição na variável independente, será menor que o valor imparcial de 13 cm. G E N D E R ββGENDERβ
Enquanto eu usei uma variável independente categórica ( ) para simplificar aqui, a mesma lógica se aplica a variáveis contínuas. Por exemplo, se você usasse uma variável contínua como a altura do nascimento para prever a altura do adulto, o valor esperado de seria o mesmo, independentemente da quantidade de erro aleatório nas medidas de altura do adulto.βGENDERβ