Diferença entre calcular a média de dados e ajustar e ajustar os dados e calcular a média


10

Se houver, entre ajustar uma linha a vários "experimentos" separados e calcular a média dos ajustes, ou calcular a média dos dados das experiências separadas e ajustar os dados médios. Deixe-me elaborar:

Realizo simulações em computador que geram uma curva, mostradas abaixo. Nós extraímos uma quantidade, vamos chamá-la de "A" ajustando a região linear do gráfico (tempos longos). O valor é simplesmente a inclinação da região linear. Obviamente, há um erro associado a essa regressão linear.

Normalmente, executamos 100 dessas simulações com diferentes condições iniciais para calcular um valor médio de "A". Foi-me dito que é melhor calcular a média dos dados brutos (do gráfico abaixo) em grupos de 10, em seguida, ajustar para "A" e calcular a média dos 10 "A" juntos.

Não tenho intuição de saber se há algum mérito nisso ou se é melhor do que ajustar 100 valores "A" individuais e calcular a média deles.

dados


Não sei se entendi: você mede A em diferentes momentos no tempo e estima ? Você faz isso várias vezes e calcula a média de todos os ? β 1UMA=β0 0+β1 1tβ1 1

Desculpe, não. O gráfico acima é o resultado de uma única simulação (vamos chamá-lo de um experimento). A região não linear inicial é descartada, ajustamos uma linha na parte linear e obtemos a inclinação "A". Portanto, uma simulação inteira produz uma única estimativa de "A". É claro que minha pergunta gira em torno de se calcular a média de muitas parcelas e calcular A é diferente de calcular A para várias parcelas e calculá-las. Espero que isso esclareça.
pragmatist1

11
Não vejo por que isso faria diferença? (se os pressupostos para a regressão linear são cumpridas)

Eu acho que o encaixe nunca dá errado / não converge / dá estimativas ridiculamente íngremes devido às experiências serem pequenas? Isso seria algo que combinando primeiro (ou modelos hierárquicos) poderia ajudar.
Björn

11
Você também pode ajustar todos os dados, mas incluir algum tipo de componente para diferenciar as experiências (interceptações diferentes para cada experiência ou até mesmo inclinações diferentes), algo como uma abordagem de modelo misto linear. Desta forma, você pode aproximar uma inclinação geral, mas seria capaz de identificar quaisquer efeitos "lote" ou diferenças entre experimentos
bdeonovic

Respostas:


2

Imagine que estamos em um contexto de dados em painel onde há variação ao longo do tempo e entre empresas . Pense em cada período como um experimento separado. Entendo sua pergunta como se fosse equivalente estimar um efeito usando:i ttEut

  • Variação transversal nas médias de séries temporais.
  • Médias de séries temporais de variação transversal.

A resposta em geral é não.

A configuração:

Na minha formulação, podemos pensar em cada período de tempo como um experimento separado.t

Digamos que você tenha um painel equilibrado de comprimento sobre empresas. Se cada período de tempo etc ..., podemos escrever os dados gerais como:n ( X t , y t )Tn(Xt,yt)

Y=[y1 1y2yn]X=[X1 1X2Xn]

Média de ajustes:

1 1Ttbt=1 1Tt(XtXt)-1 1Xtyt=1 1TtSt-1 1(1 1nEuxt,Euyt,Eu)Onde St=1 1nEuxt,Euxt,Eu

Ajuste das médias:

Em geral, isso não é igual à estimativa baseada na variação transversal das médias das séries temporais (isto é, entre o estimador).

(1 1nEux¯Eux¯Eu)-1 11 1nEux¯Euy¯Eu

Onde etc ...x¯Eu=1 1Ttxt,Eu

Estimativa OLS combinada:

Algo talvez útil para se pensar é a estimativa OLS combinada. O que é isso? Em seguida, use

b^=(XX)-1 1XY=(1 1nTtXtXt)-1 1(1 1nTtXtyEu)
bt=(XtXt)-1 1XtyEu
=(1 1nTtXtXt)-1 1(1 1nTtXtXtbt)

Vamos e ser nossas estimativas de sobre a amostra completa e no período respectivamente. Então nós temos:S=1 1nTEuXXSt=1 1nXtXtE[xx]t

b^=1 1Tt(S-1 1St)bt

É como uma média das diferentes estimativas específicas de tempo , mas é um pouco diferente. Em certo sentido, você está dando mais peso a períodos com maior variação das variáveis ​​do lado direito.bt

Caso especial: as variáveis ​​do lado direito são invariantes no tempo e específicas da empresa

Se as variáveis ​​do lado direito de cada empresa forem constantes ao longo do tempo (por exemplo, para qualquer e ), então para todos os teríamos:EuXt1 1=Xt2t1 1t2S=Stt

b^=1 1Ttbt

Comentário divertido:

Este é o caso de Fama e Macbeth em que quando aplicaram essa técnica de média de estimativas transversais para obter erros padrão consistentes ao estimar como os retornos esperados variam com a covariância das empresas com o mercado (ou com outros fatores de carga).

O procedimento de Fama-Macbeth é uma maneira intuitiva de obter erros padrão consistentes no contexto do painel quando os termos do erro são correlacionados transversalmente, mas independentes ao longo do tempo. Uma técnica mais moderna que produz resultados semelhantes é o agrupamento no prazo.


1

(Observação: não tenho reputação suficiente para comentar, por isso estou postando isso como resposta.)

Para a questão específica colocada, a resposta de fcop está correta: ajustar a média é o mesmo que calcular a média dos ajustes (pelo menos para os mínimos quadrados lineares). No entanto, vale ressaltar que qualquer uma dessas abordagens " on-line " ingênuas pode fornecer resultados tendenciosos, em comparação com o ajuste de todos os dados de uma só vez. Como os dois são equivalentes, vou focar na abordagem "ajustar a média". Essencialmente, o ajuste das curvas médias ignora a incerteza relativa nos valores de entre pontos diferentes . Por exemplo, se , e , entãoy¯[x]=y[x]yxy1 1[x1 1]=y2[x1 1]=2y1 1[x2]=1 1y1 1[x2]=3y¯[x1 1]=y¯[x2]=2 , mas qualquer ajuste de curva deve se preocupar muito mais com desajuste em comparação com .x1 1x2

Observe que a maioria das plataformas de software científicas deve ter ferramentas para calcular / atualizar um verdadeiro ajuste de mínimos quadrados "online" (conhecido como mínimos quadrados recursivos ). Portanto, todos os dados podem ser usados ​​(se isso for desejável).


11
A resposta postada por fcop foi excluída. Você pode alterar um pouco a sua resposta
Glen_b -Reinstala Monica 30/09
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.