Por que os modelos de "erro no X" não são mais amplamente utilizados?

Quando calcular o erro padrão de um coeficiente de regressão, que não conta para a aleatoriedade na matriz de design $X$ . Em OLS, por exemplo, nós calcular $\text{var}(\hat{\beta})$ como $\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1}$

Se o $X$ foram considerados aleatória, a lei da variância total que, em certo sentido, exigir a contribuição adicional da variância de $X$ também. ie

var (\hat{β}) = var (E (\hat{β} | X)) + E (var (\hat{β} | X)) .

$\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)).$

O qual, se o estimador OLS for realmente imparcial, o primeiro termo desaparecerá, pois a expectativa é constante. O segundo termo realmente se torna: $\sigma^2 \text{cov}(X)^{-1}$ .

Se um modelo paramétrico para $X$ é conhecido, por que não substituímos $X^TX$ pela estimativa de covariância real. Por exemplo, se $X$ é uma atribuição aleatória de tratamento, a variação binomial $E(X)(1-E(X))$ ser uma estimativa mais eficiente?
Por que não consideramos o uso de modelos não paramétricos flexíveis para estimar as possíveis fontes de viés na estimativa do OLS e contabilizar adequadamente a sensibilidade ao projeto (ou seja, a distribuição de $X$ ) no primeiro termo de variância da lei total $\text{var}(E(\hat{\beta}|X))$ ?

— AdamO
fonte

Por que uma lei matemática "exige" alguma coisa? Usamos um modelo para raciocinar com dados para abordar objetivos específicos. Quando esses são para entender ou prever a resposta condicional com base em um valor observado ou medido

a variação em

teria pouco (ou nada) a ver com a questão substantiva - de fato, incorporar essa variação em nossos procedimentos pareceria estar completamente errado, enganoso ou até sem sentido. Portanto, responder a sua pergunta se resume a avaliar as frequências com as quais diferentes tipos de problemas estatísticos são encontrados.

X,

$X,$

X

$X$

— whuber

@whuber Meu foco está na inferência. A lei da variância total parece estar mais alinhada com a interpretação freqüente dos resultados do estudo. Costumamos falar de "se o estudo foi replicado" ... sem levar em conta o fato de que a distribuição de

poderia diferir se o estudo fosse replicado. O equilíbrio do sexo pode ser de 40% em uma amostra, mas 60% em outra, simplesmente como uma conseqüência aleatória de como o estudo foi obtido. Ironicamente, o bootstrap reflete isso, mas não gera nenhuma variabilidade no resultado para uma combinação específica de covariáveis.

X

$X$

— AdamO 30/05/19

Primeiro, muitos estudos colocam o

sob controle experimental, por isso nem é aleatório. Segundo, estudos de observação (onde

é aleatória) frequentemente está interessado apenas em inferência acerca da distribuição condicional de

Assim, focar na inferência não distingue uma situação da outra. Quando a distribuição completa (conjunta) for interessante, você verá muitas pessoas recorrendo a formas de análise de correlação ou a vários procedimentos multivariados. Não existe o "bootstrap", porque nessa situação, como você reamostrar depende dos seus objetivos e do seu modelo.

X

$X$

X

$X$

Y .

$Y.$

— whuber

@whuber O controle experimental é atribuído aleatoriamente no ponto de entrada do estudo. Como mencionei, este é um caso convincente: digamos que a randomização seja Bernoulli. Por que usar uma estimativa empírica de

? Use a probabilidade máxima:

? Você está correto sobre a inicialização, eu estava me referindo à inicialização não-paramétrica (incondicional) em que "linhas" de dados são amostradas com substituição.

cov (X) = X^{T} X

$\text{cov}(X) = X^TX$

cov (X) = E (X) (1 - E (X))

$\text{cov}(X) = E(X)(1-E(X))$

— AdamO

X_{1}

$X_1$

X_{1}

$X_1$

β_{1}

$\beta_1$

Respostas:

Sua pergunta (mais comentários adicionais nos comentários) parece estar mais interessada no caso em que temos um estudo controlado randomizado, em que o pesquisador atribui aleatoriamente uma ou mais das variáveis explicativas, com base em algum desenho de randomização. Nesse contexto, você quer saber por que usamos um modelo que trata as variáveis explicativas como constantes conhecidas, em vez de tratá-las como variáveis aleatórias da distribuição amostral imposta pela randomização. (Sua pergunta é mais ampla que essa, mas esse parece ser o caso de interesse primário no comentário, portanto, esse é o assunto que abordarei.)

$X$ $Y$ $X$ $^\dagger$ No entanto, o objeto de inferência no problema ainda é a distribuição condicional da variável resposta, dadas as variáveis explicativas. Assim, ainda faz sentido estimar os parâmetros nessa distribuição condicional, usando métodos de estimativa que possuem boas propriedades para inferir a distribuição condicional .

Esse é o caso normal que se aplica a um ECR usando técnicas de regressão. Obviamente, há algumas situações em que temos outros interesses e podemos, de fato, querer incorporar incerteza sobre as variáveis explicativas. A incorporação da incerteza nas variáveis explicativas geralmente ocorre em dois casos:

(1) Quando vamos além da análise de regressão e entramos na análise multivariada, estamos interessados na distribuição conjunta das variáveis explicativas e de resposta, em vez de apenas na distribuição condicional da última, dada a primeira. Pode haver aplicações onde esse seja o nosso interesse e, portanto, iríamos além da análise de regressão e incorporaríamos informações sobre a distribuição das variáveis explicativas.
(2) Em algumas aplicações de regressão, nosso interesse está na distribuição condicional da variável de resposta condicional em uma variável explicativa não observada subjacente, na qual assumimos que as variáveis explicativas observadas estavam sujeitas a erro ("erros nas variáveis"). Nesse caso, incorporamos a incerteza via "erros nas variáveis". A razão para isso é que nosso interesse nesses casos está na distribuição condicional , condicionada a uma variável subjacente não observada .

Observe que ambos os casos são matematicamente mais complicados do que a análise de regressão; portanto, se pudermos usar a análise de regressão, geralmente é preferível. De qualquer forma, na maioria das aplicações da análise de regressão, o objetivo é fazer uma inferência sobre a distribuição condicional da resposta, dadas as variáveis explicativas observáveis, para que essas generalizações se tornem desnecessárias.

$^\dagger$

— Ben - Restabelecer Monica
fonte

Boa resposta. Eu acrescentaria que o AFAIK se você tiver erros nas variáveis gaussianos e erro na resposta gaussiano do que o método de regressão normal funciona e só se tornará um problema se você a) observar resposta sem erro b) tiver uma distribuição de resposta diferente

— Martin Modrák

$X$

Já respondi a uma pergunta semelhante: Qual é a diferença entre condicionar os regressores e tratá-los como fixos? , então aqui vou copiar parte da minha resposta lá:

$(Y,X)$ $Y$ $X$ $Y$ $X$

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$

θ

$\theta$

ψ

$\psi$

X

$X$

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$

(θ, ψ)

$(\theta,\psi)$

Θ \times Ψ

$\Theta \times \Psi$

$X$ $f_\psi(x)$ $Y$ $f_\theta(y \mid X=x)$ $\theta$ $X$ $\theta$

$\theta$ $f_\psi(x)$ $x$ $\theta$ $\theta$ $X=x$

Em experimentos projetados, sua suposição prevalecerá, geralmente com dados observacionais que não. Alguns exemplos de problemas serão: regressão com respostas atrasadas como preditores. O condicionamento nos preditores nesse caso também condicionará a resposta! (Vou adicionar mais exemplos).

$\S 4.3$

$\theta$ $X$ $\theta$ $X$ $\theta$

Esse argumento de separação também é útil porque aponta para os casos em que não pode ser usado, por exemplo, regressão com respostas atrasadas como preditores.

— kjetil b halvorsen
fonte

X

$X$

Y

$Y$

θ

$\theta$

ψ

$\psi$

Eu não sei sobre PLS, mas vai tentar pensar sobre isso

— b Kjetil Halvorsen

Resposta agradável ...!

— Richard Hardy