Estou um pouco confuso se uma variável independente (também chamada de preditor ou recurso) em um modelo estatístico, por exemplo, o na regressão linear , é uma variável aleatória?Y = β 0 + β 1 X
Estou um pouco confuso se uma variável independente (também chamada de preditor ou recurso) em um modelo estatístico, por exemplo, o na regressão linear , é uma variável aleatória?Y = β 0 + β 1 X
Respostas:
Existem duas formulações comuns de regressão linear. Para focar nos conceitos, vou abstraí-los um pouco. A descrição matemática é um pouco mais envolvida que a descrição em inglês, então vamos começar com a última:
A regressão linear é um modelo no qual uma resposta é assumida como aleatória com uma distribuição determinada pelos regressores através de um mapa linear e, possivelmente, por outros parâmetros .
Na maioria dos casos, o conjunto de possíveis distribuições é uma família de locais com os parâmetros e e fornece o parâmetro . O exemplo arquetípico é a regressão ordinária em que o conjunto de distribuições é a família Normal e é uma função linear dos regressores.
Como ainda não descrevi isso matematicamente, ainda é uma questão em aberto a que tipos de objetos matemáticos , , e referem - e acredito que esse é o principal problema neste segmento. Embora se possa fazer várias escolhas (equivalentes), a maioria será equivalente ou casos especiais da descrição a seguir.
Regressores fixos. Os regressores são representados como vetores reais . A resposta é uma variável aleatória (onde é dotado com um campo sigma e probabilidade). O modelo é uma função (ou, se desejar, um conjunto de funções parametrizado por ). é uma subvariedade topológica dimensional finita (geralmente a segunda diferenciável) (ou subvariedade com limite) da dimensão do espaço das distribuições de probabilidade. é geralmente considerado contínuo (ou suficientemente diferenciável). são os "parâmetros de perturbação." Supõe-se que a distribuição de seja para algum vetor duplo desconhecido (os "coeficientes de regressão") e θ ∈ Θ desconhecido. Podemos escrever esse
Regressores aleatórios. Os regressores e resposta são um dimensional variável aleatória vector . O modelo é o mesmo tipo de objeto de antes, mas agora fornece a probabilidade condicional
A descrição matemática é inútil sem alguma receita indicando como se destina a ser aplicada aos dados. No caso do regressor fixo, concebemos como sendo especificado pelo experimentador. Assim, pode ajudar a visualizar como um produto dotado de uma álgebra sigma de produto. O experimentador determina e a natureza determina (alguns desconhecidos, abstratos) . No caso do regressor aleatório, a natureza determina , o componente da variável aleatória determina (que é "observado") e agora temos um par ordenado exatamente como no caso do regressor fixo.
O exemplo arquetípico da regressão linear múltipla (que expressarei usando a notação padrão para os objetos em vez desta mais geral) é que
Quando - em qualquer forma whatsoever-- é estimado como β e σ como σ , o valor de β ( x ) é o valor previsto de Y associada com x --whether x é controlado pelo experimentador (caso 1 ) ou é apenas observado (caso 2). Se definirmos um valor (caso 1) ou observarmos uma realização (caso 2) x de X , a resposta Y associada a esse X é uma variável aleatória cuja distribuição é N ( , que é desconhecida, masestima-se .
Primeiro de tudo, o @whuber deu uma excelente resposta. Vou dar uma visão diferente, talvez mais simples em algum sentido, também com referência a um texto.
pode ser aleatório ou fixo na formulação de regressão. Isso depende do seu problema. Para os chamados estudos observacionais, deve ser aleatório e, para experimentos, geralmente é fixo.
Exemplo um. Estou estudando o impacto da exposição à radiação de elétrons na dureza de uma peça de metal. Então, colho algumas amostras da peça metálica e expô-las a níveis variáveis de radiação. Meu nível de exposição é X e é fixo , porque eu defini os níveis que escolhi. Eu controlo totalmente as condições do experimento, ou pelo menos tento. Eu posso fazer o mesmo com outros parâmetros, como temperatura e umidade.
Exemplo dois Você está estudando o impacto da economia na frequência de ocorrências de fraude nos aplicativos de cartão de crédito. Então, você regride o evento de fraude conta com o PIB. Você não controla o PIB, não pode definir o nível desejado. Além disso, você provavelmente deseja observar regressões multivariadas, para ter outras variáveis, como desemprego, e agora possui uma combinação de valores em X, que observa , mas não controla. Nesse caso, X é aleatório .
Exemplo 3 Você está estudando a eficácia do novo pesticida em campo, ou seja, não nas condições do laboratório, mas na fazenda experimental real. Nesse caso, você pode controlar algo, por exemplo, você pode controlar a quantidade de pesticida a colocar. No entanto, você não controla tudo, por exemplo, condições climáticas ou do solo. Ok, você pode controlar o solo até certo ponto, mas não completamente. Este é um caso intermediário, em que algumas condições são observadas e outras são controladas . Existe todo esse campo de estudo chamado design experimental que está realmente focado neste terceiro caso, em que a pesquisa agrícola é uma das maiores aplicações dela.
Aqui vai a parte matemática de uma resposta. Há um conjunto de suposições que geralmente são apresentadas quando se estuda regressão linear, denominada condições de Gauss-Markov. Eles são muito teóricos e ninguém se incomoda em provar que possui alguma configuração prática. No entanto, eles são muito úteis para entender as limitações do método dos mínimos quadrados ordinários (OLS).
Portanto, o conjunto de suposições é diferente para X aleatório e fixo, que correspondem aproximadamente a estudos observacionais vs. experimentais. Grosso modo, porque, como mostrei no terceiro exemplo, às vezes estamos realmente entre os extremos. Achei que a seção do teorema de "Gauss-Markov" na Enciclopédia de Design de Pesquisa de Salkind é um bom ponto de partida, está disponível no Google Livros.
As diferentes suposições do projeto fixo são as seguintes para o modelo de regressão usual :
vs. as mesmas suposições no design aleatório:
Como você pode ver, a diferença está em condicionar as suposições na matriz de design para o design aleatório. O condicionamento faz essas suposições mais fortes. Por exemplo, não estamos apenas dizendo, como no design fixo, que os erros têm média zero; no design aleatório, também dizemos que eles não dependem de covariáveis X.
Nas estatísticas, uma variável aleatória é uma quantidade que varia aleatoriamente de alguma forma. Você pode encontrar uma boa discussão neste excelente tópico do CV: O que se entende por uma "variável aleatória"?
Em um modelo de regressão, as variáveis preditoras (variáveis X, variáveis explicativas, covariáveis etc.) são assumidas como fixas e conhecidas . Eles não são considerados aleatórios. Supõe-se que toda a aleatoriedade no modelo esteja no termo de erro. Considere um modelo de regressão linear simples, conforme formulado de maneira padronizada:
O termo de erro, ε , é uma variável aleatória e é a fonte da aleatoriedade no modelo. Como resultado do termo de erro, Y também é uma variável aleatória. Mas X não é considerado uma variável aleatória. (Obviamente, pode ser uma variável aleatóriana realidade, mas isso não é assumido ou refletido no modelo.)
Não tenho certeza se entendi a pergunta, mas se você está apenas perguntando "deve uma variável independente sempre ser uma variável aleatória", a resposta é não.
Uma variável independente é uma variável cuja hipótese é correlacionada com a variável dependente. Em seguida, você testa se esse é o caso através da modelagem (presumivelmente análise de regressão).
Existem muitas complicações e "ifs, buts e maybes" aqui, então eu sugiro que você obtenha uma cópia de um livro básico de econometria ou estatística que cubra a análise de regressão e leia-a completamente, ou então obtenha as notas da aula de uma estatística / econometria básica curso on-line, se possível.