Quais são as diferenças entre regressores estocásticos e fixos no modelo de regressão linear?

7

Se temos regressores estocásticos, estamos desenhando pares aleatórios para um monte de , a chamada amostra aleatória, de uma distribuição probabilística fixa, mas desconhecida . Teoricamente falando, a amostra aleatória nos permite aprender ou estimar alguns parâmetros da distribuição . $(y_i,\vec{x}_i)$ $i$ $(y,\vec{x})$ $(y,\vec{x})$

Se fixamos regressores, teoricamente falando, podemos inferir apenas alguns parâmetros sobre distribuições condicionais, para que cada não é uma variável aleatória ou é fixo. Mais especificamente, os regressores estocásticos permitem estimar alguns parâmetros de toda a distribuição de enquanto os regressores fixos apenas permitem estimar certos parâmetros das distribuições condicionais . $k$ $y\mid x_i$ $i=1,2,\dots,k$ $x_i$ $(y,\vec{x})$ $(y,\vec{x_i})\mid x_i$

A conseqüência é que os regressores fixos não podem ser generalizados para toda a distribuição. Por exemplo, se tivéssemos na amostra como regressores fixos, não podemos inferir nada sobre ou , mas os regressores estocásticos podem. $x=1,2,3,\dots,99$ $100$ $99.9$

Essa é, na verdade, uma pergunta bastante obscura, pois muitos livros falam apenas sobre as diferenças na derivação matemática, mas evitam discutir as diferenças na medida em que possam ser generalizadas teoricamente. Eu procurei ajuda do meu professor de estatística, mas ele não sabe a resposta.

— Kun
fonte

Qual é a pergunta real?

— Jake Westfall 01/06

@JakeWestfall Estou apenas pedindo verificação. Não tenho certeza se eu tinha esse direito

— Kun

Acho que este documento confirma seus pensamentos. web.pdx.edu/~newsomj/mlrclass/ho_randfixd.pdf

— Cagdas Ozgenc

3

Minha sugestão é adquirir o hábito de chamar os regressores "fixos" de "determinísticos". Isso realiza duas coisas: primeiro, elimina o equívoco não raro de que "fixo" significa "invariável". Segundo, contrasta claramente com "estocástico" e nos diz que os regressores são decididos (daí a terminologia "matriz de design" que vem de campos onde os regressores são determinísticos).

Se os regressores são determinísticos, eles não têm distribuição, portanto, não têm momentos, como, por exemplo, o valor esperado. O único elemento estocástico da amostra reside no termo do erro (e, portanto, na variável dependente).

Isso tem a implicação básica de que uma amostra com um único regressor determinístico variável e não é mais uma amostra distribuída de forma idêntica :

E (y_{Eu}) = b E (x_{Eu}) + E ({você}_{Eu}) ⟹ E (y_{Eu}) = b x_{Eu}

$E(y_i) = bE(x_i) + E(u_i) \implies E(y_i) = bx_i$

e desde o determinista $x_i$ estão variando, segue-se que a variável dependente não tem o mesmo valor esperado para todos $i$ 's. Em outras palavras, não há uma distribuição, cada $y_i$ tem o seu próprio (possivelmente pertencente à mesma família, mas com parâmetros diferentes).

Então você vê que não se trata de momentos condicionais, as implicações dos regressores determinísticos se relacionam com os momentos incondicionais. Por exemplo, calcular a média da variável dependente aqui não nos dá nada de significativo, exceto as estatísticas descritivas da amostra.

Inverta isso para ver a implicação: se o $y_i$ são extraídos de uma população de variáveis aleatórias idênticas, em que sentido e com que validade os vincularemos a regressores determinísticos? Sempre podemos regredir uma série de números em uma matriz de outros números: se usarmos os mínimos quadrados comuns, estimaremos a projeção ortogonal relacionada. Mas isso é desprovido de qualquer significado estatístico.

Note também que $E(y_i \mid x_i) = E(y_i)$ . Isso significa que $y_i$ é "independente da média" de $x_i$ ? Não, essa seria a interpretação se $x_i$ foi estocástico. Aqui, ele nos diz que não há distinção entre momentos incondicionais e condicionais, quando estão envolvidos regressores determinísticos.

Certamente podemos prever com regressores determinísticos. $b$ é uma característica comum de todos $y_i$ e podemos recuperá-lo usando regressores determinísticos. Então, podemos pegar um regressor com um valor fora da amostra e prever o valor do correspondente $y$ .

— Alecos Papadopoulos
fonte

@cowboyTrader Acho que porque queria deixar o mais claro possível a diferença essencial entre regressores estocásticos e determinísticos. Atribuindo a um regressor determinístico uma "distribuição", mesmo que seja Dirac Delta, eu posso alegrar os que estão inclinados matematicamente, mas também confundir os menos.

— Alecos Papadopoulos

1

Eu não acho que você descreve a regressão fixa corretamente. A fixedneste meio de contexto que você pode escolher qualquer nível que você decidir.

Suponha que você esteja estudando interrupções no site em função dos parâmetros do servidor e da carga. Considere duas abordagens diferentes:

uma. você faz isso no laboratório de teste de carga da sua empresa (in vitro)
b. você faz isso no servidor de produção ao vivo (in vivo)

A. No laboratório de teste de carga, você pode definir qualquer nível de carga e parâmetros desejados do servidor da Web. Você pode carregá-lo com 1.000 clientes simultâneos e o tamanho do pool de trabalhadores 100 e memória de 100 GB; ou você pode ter apenas 10 clientes simultâneos, 10 threads e 1 GB, etc.

Nesse caso, sua fixedmatriz de design terá quatro colunas: a interceptação e três variáveis. É corrigido porque não há nada aleatório nos níveis das variáveis. Você conhece os valores exatos de cada variável, e você choseos deseja.

B. No servidor de produção ao vivo, você provavelmente pode controlar apenas alguns parâmetros e certamente não pode controlar a carga: os clientes vão e vêm como desejam. Portanto, pelo menos a carga será estocástica. Mesmo os parâmetros não são completamente corrigidos: afinal, você deseja que o servidor ainda esteja executando e atendendo clientes enquanto você o está testando. Talvez você possa jogar com as configurações de memória e pool de threads em alguns intervalos. Portanto, no melhor caso, você pode definir apenas duas variáveis de três regressores de boa-fé.

Você tem a matriz de design aleatório neste caso. Você só pode observar a carga, que é o regressor aqui. Esta é uma variável aleatória.

Escusado será dizer que a análise é muito mais fácil e mais robusta quando você tem uma matriz de design fixa.

— Aksakal
fonte

0

Primeiro, o que é regressão? Consulte Definição e delimitação do modelo de regressão. Existe alguma discordância sobre esse conceito muito amplo, mas principalmente se trata de modelar a distribuição condicional (ou algum aspecto dele) de $Y$ dados alguns preditores $x$ .

Então, dado que vamos condicionar em $x$ , por que deveria importar se $x$ foi aleatório ou determinístico no início? Veja a pergunta semelhante Qual é a diferença entre condicionar os regressores e tratá-los como fixos? .

Acho que esse regressor aleatório parece uma bagunça, porque na verdade é um monstro de muitas cabeças (um pouco como o socialismo, você corta uma cabeça e outras crescem.) regressores como aleatórios. Eu tento uma lista curta, certamente não exaustiva:

Erros de medição nos regressores $x$ . Isso poderia muito bem ocorrer mesmo com experimentos projetados com regressores determinísticos, então me parece um problema separado. Veja as tagserros em variáveis ou erro de medição.
Problemas com a coleta de dados causando problemas de inferência, como regressores correlacionados com o termo de erro, regressões separadas com termos de erro correlacionados e muitos outros problemas estudados em econometria e inferência causal, que não pode ser modelado com regressores determinísticos.
Modelos com valores defasados da resposta como preditor. Isso geralmente é feito com regressores tratados como determinísticos, o que me parece estranho. Então $Y$ é tratado como aleatório em uma parte do modelo e como determinístico em outra parte ...

Parece-me que muitos desses casos são melhor tratados por si só, e não sob a rotulagem muito ampla de regressores aleatórios.

— kjetil b halvorsen
fonte