Sua pergunta (mais comentários adicionais nos comentários) parece estar mais interessada no caso em que temos um estudo controlado randomizado, em que o pesquisador atribui aleatoriamente uma ou mais das variáveis explicativas, com base em algum desenho de randomização. Nesse contexto, você quer saber por que usamos um modelo que trata as variáveis explicativas como constantes conhecidas, em vez de tratá-las como variáveis aleatórias da distribuição amostral imposta pela randomização. (Sua pergunta é mais ampla que essa, mas esse parece ser o caso de interesse primário no comentário, portanto, esse é o assunto que abordarei.)
XYX† No entanto, o objeto de inferência no problema ainda é a distribuição condicional da variável resposta, dadas as variáveis explicativas. Assim, ainda faz sentido estimar os parâmetros nessa distribuição condicional, usando métodos de estimativa que possuem boas propriedades para inferir a distribuição condicional .
Esse é o caso normal que se aplica a um ECR usando técnicas de regressão. Obviamente, há algumas situações em que temos outros interesses e podemos, de fato, querer incorporar incerteza sobre as variáveis explicativas. A incorporação da incerteza nas variáveis explicativas geralmente ocorre em dois casos:
(1) Quando vamos além da análise de regressão e entramos na análise multivariada, estamos interessados na distribuição conjunta das variáveis explicativas e de resposta, em vez de apenas na distribuição condicional da última, dada a primeira. Pode haver aplicações onde esse seja o nosso interesse e, portanto, iríamos além da análise de regressão e incorporaríamos informações sobre a distribuição das variáveis explicativas.
(2) Em algumas aplicações de regressão, nosso interesse está na distribuição condicional da variável de resposta condicional em uma variável explicativa não observada subjacente, na qual assumimos que as variáveis explicativas observadas estavam sujeitas a erro ("erros nas variáveis"). Nesse caso, incorporamos a incerteza via "erros nas variáveis". A razão para isso é que nosso interesse nesses casos está na distribuição condicional , condicionada a uma variável subjacente não observada .
Observe que ambos os casos são matematicamente mais complicados do que a análise de regressão; portanto, se pudermos usar a análise de regressão, geralmente é preferível. De qualquer forma, na maioria das aplicações da análise de regressão, o objetivo é fazer uma inferência sobre a distribuição condicional da resposta, dadas as variáveis explicativas observáveis, para que essas generalizações se tornem desnecessárias.
†