Se eu repetir todas as observações de amostra em um modelo de regressão linear e executar novamente a regressão, como o resultado seria afetado?

15

Digamos que eu tenha N observações, possivelmente vários fatores, e repito cada observação duas vezes (ou M vezes). Como uma regressão nesse novo conjunto de tamanho NM se compara a uma regressão apenas nas observações originais?

regression linear-model multiple-regression

— Palace Chan
fonte

13

Conceitualmente, você não está adicionando informações "novas", mas "conhece" essas informações com mais precisão.

Isso resultaria nos mesmos coeficientes de regressão, com erros padrão menores.

Por exemplo, no Stata, a função de expansão x duplica cada observação x vezes.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Como você pode ver, os coeficientes (comprimento) anteriormente insignificantes se tornam estatisticamente significativos no modelo expandido, representando a precisão com a qual você "sabe" o que sabe.

— pmgjones
fonte

Sim, os erros padrão realmente diminuem. Alguns recomendam regressão linear ponderada para isso. Existe um método usado para corrigir isso?

— BBDynSys 13/03/2015

3

W^{*} = {argmin}_{W} | | X W - y | |^{2}

$w^* = \mbox{argmin}_w ||Xw - y||^2$

X

$X$

y

$y$

M

$M$

M

$M$

— Innuo
fonte

Concordo, mas acho que as estatísticas e os erros padrão devem mudar devido à mudança de N para NM?

— Palace Chan

M * N - P

$M*N - P$

N

$N$

P

$P$

M

$M$