Considere uma regressão simples (normalidade não assumida): onde está com média e desvio padrão . São os menos Estimativas quadrados de e uncorrelated?e i 0 σ a b
Considere uma regressão simples (normalidade não assumida): onde está com média e desvio padrão . São os menos Estimativas quadrados de e uncorrelated?e i 0 σ a b
Respostas:
Essa é uma consideração importante ao projetar experimentos, nos quais pode ser desejável não ter (ou muito pouca) correlação entre as estimativas e . Essa falta de correlação pode ser alcançada controlando os valores do . b Xi
Para analisar os efeitos do nas estimativas, os valores (que são vetores de linhas de comprimento ) são montados verticalmente em uma matriz , a matriz de design, tendo tantas linhas quanto dados e (obviamente ) duas colunas. O correspondente é montado em um vetor longo (coluna) . Nesses termos, escrevendo para os coeficientes reunidos, o modelo é ( 1 , X i ) 2 X Y i y β = ( a , b ) ′
Os (geralmente) são assumidos como variáveis aleatórias independentes cujas variações são constantes para alguns desconhecidos . As observações dependentes são consideradas uma realização da variável aleatória com valor vetorial .σ 2 σ > 0 y Y
A solução OLS é
assumindo que esta matriz inversa existe. Assim, usando propriedades básicas de multiplicação e covariância de matrizes,
A matriz possui apenas duas linhas e duas colunas, correspondentes aos parâmetros do modelo . A correlação de com é proporcional aos elementos fora da diagonal de que pela regra de Cramer são proporcionais ao produto do ponto das duas colunas de . Como uma das colunas é composta por todos os s, cujo produto escalar com a outra coluna (consistindo no ) é sua soma, encontramos
e não são correlacionados se e somente a soma (ou equivalentemente a média) do for zero.
Esta condição de ortogonalidade frequentemente é alcançada por recentragem o (subtraindo-se a sua média de cada). Embora isso não altere a inclinação estimada , altera a interceptação estimada . Se isso é importante ou não, depende da aplicação.
Esta análise se aplica à regressão múltipla: a matriz de projeto terá colunas para variáveis independentes (uma coluna adicional consiste em s) e será um vetor de comprimento , mas, caso contrário, tudo passa como antes.
Na linguagem convencional, duas colunas de são chamadas ortogonais quando seu produto escalar é zero. Quando uma coluna de (digamos a coluna ) é ortogonal a todas as outras colunas, é um fato algébrico facilmente demonstrado que todas as entradas fora da diagonal na linha coluna de são zero (ou seja, os componentes e para todos os são zero). Consequentemente,
Duas estimativas de coeficiente de regressão múltipla e não são correlacionadas sempre que uma (ou ambas) das colunas correspondentes da matriz de design são ortogonais a todas as outras colunas. β j
Muitos projetos experimentais padrão consistem em escolher valores das variáveis independentes para tornar as colunas ortogonais. Isso "separa" as estimativas resultantes, garantindo - antes que qualquer dado seja coletado! - que as estimativas não serão correlacionadas. (Quando as respostas têm distribuições normais, isso implica que as estimativas serão independentes, o que simplifica bastante sua interpretação.)