Quais são as suposições usuais para a regressão linear?
Eles incluem:
- uma relação linear entre a variável independente e dependente
- erros independentes
- distribuição normal de erros
- homoscedasticidade
Existem outros?
Quais são as suposições usuais para a regressão linear?
Eles incluem:
Existem outros?
Respostas:
A resposta depende muito de como você define completo e usual. Suponha que escrevamos o modelo de regressão linear da seguinte maneira:
onde é o vetor de variáveis preditoras, é o parâmetro de interesse, é a variável de resposta e é a perturbação. Uma das estimativas possíveis de é a estimativa de mínimos quadrados:
Agora, praticamente todos os livros didáticos lidam com as suposições quando essa estimativa tem propriedades desejáveis, como imparcialidade, consistência, eficiência, algumas propriedades distributivas, etc.
Cada uma dessas propriedades requer certas suposições, que não são as mesmas. Portanto, a melhor pergunta seria perguntar quais premissas são necessárias para as propriedades desejadas da estimativa de LS.
As propriedades que mencionei acima requerem algum modelo de probabilidade para regressão. E aqui temos a situação em que diferentes modelos são usados em diferentes campos aplicados.
O caso simples é tratar como uma variável aleatória independente, com sendo não aleatório. Não gosto da palavra habitual, mas podemos dizer que esse é o caso usual na maioria dos campos aplicados (tanto quanto eu sei).
Aqui está a lista de algumas das propriedades desejáveis das estimativas estatísticas:
Existência
A propriedade de existência pode parecer estranha, mas é muito importante. Na definição de , invertemos a matriz
Não é garantido que o inverso dessa matriz exista para todas as variantes possíveis de . Então, imediatamente obtemos nossa primeira suposição:
Matriz deve ser de classificação completa, ou seja, invertível.
Imparcialidade
Temos
se
Podemos enumerar a segunda suposição, mas podemos tê-la declarado completamente, já que essa é uma das maneiras naturais de definir relacionamento linear.
Observe que, para obter imparcialidade, exigimos apenas que para todos os e sejam constantes. Propriedade de independência não é necessária.
Consistência
Para obter as premissas de consistência, precisamos declarar com mais clareza o que queremos dizer com . Para sequências de variáveis aleatórias que têm diferentes modos de convergência: em probabilidade, quase certamente, na distribuição e sentido -ésimo momento. Suponha que queremos obter a convergência em probabilidade. Podemos usar a lei dos grandes números ou usar diretamente a desigualdade multivariada de Chebyshev (empregando o fato de que ):
(Essa variante da desigualdade vem diretamente da aplicação da desigualdade de Markov em , observando que .)
Como convergência em probabilidade significa que o termo da esquerda deve desaparecer para qualquer como , precisamos que como . Isso é perfeitamente razoável, pois com mais dados, a precisão com a qual estimamos deve aumentar.
Temos que
A independência garante que , portanto, a expressão simplifica para
Agora assuma e
Agora, se exigirmos adicionalmente que seja delimitado para cada , obteremos imediatamente
Portanto, para obter a consistência, assumimos que não há autocorrelação ( ), a variação é constante e o não cresce muito. A primeira suposição é satisfeita se vier de amostras independentes.
Eficiência
O resultado clássico é o teorema de Gauss-Markov . As condições para isso são exatamente as duas primeiras condições de consistência e a condição de imparcialidade.
Propriedades distributivas
Se for normal, obtemos imediatamente que é normal, pois é uma combinação linear de variáveis aleatórias normais. Se assumirmos premissas anteriores de independência, falta de correlação e variação constante, obtemos que
onde .
Se não é normal, mas independente, podemos obter uma distribuição aproximada de graças ao teorema do limite central. Para isso, precisamos assumir que
para alguma matriz . A variação constante da normalidade assintótica não é necessária se assumirmos que
Note-se que com variância constante de , temos que . O teorema do limite central nos fornece o seguinte resultado:
Portanto, vemos que a independência e a variação constante de e certas suposições para nos oferecem muitas propriedades úteis para a estimativa de LS .
O fato é que essas suposições podem ser relaxadas. Por exemplo, solicitamos que não sejam variáveis aleatórias. Essa suposição não é viável em aplicações econométricas. Se formos aleatórios, podemos obter resultados semelhantes se usarmos expectativas condicionais e levarmos em consideração a aleatoriedade de . A suposição de independência também pode ser relaxada. Já demonstramos que, às vezes, apenas a falta de correlação é necessária. Mesmo isso pode ser mais relaxado e ainda é possível mostrar que a estimativa do LS será consistente e assintoticamente normal. Veja, por exemplo, o livro de White para mais detalhes.
Há várias boas respostas aqui. Ocorre-me que há uma suposição que não foi afirmada no entanto (pelo menos não explicitamente). Especificamente, um modelo de regressão assume que (os valores de suas variáveis explicativas / preditivas) é fixo e conhecido , e que toda a incerteza na situação existe na variávelAlém disso, essa incerteza é assumida como sendo apenas um erro de amostragem .
Aqui estão duas maneiras de pensar sobre isso: Se você está construindo um modelo explicativo (modelagem de resultados experimentais), você sabe exatamente o que os níveis das variáveis independentes são, porque você manipulado / administrada eles. Além disso, você decidiu quais seriam esses níveis antes de começar a coletar dados. Então você está conceituando toda a incerteza no relacionamento como existente na resposta. Por outro lado, se você estiver construindo um modelo preditivo, é verdade que a situação difere, mas você ainda trata os preditores como se eles fossem fixos e conhecidos, porque, no futuro, quando você usar o modelo para fazer uma previsão sobre o valor provável de , você terá um vetor,, e o modelo foi projetado para tratar esses valores como se estivessem corretos. Ou seja, você conceberá a incerteza como sendo o valor desconhecido de .
Essas suposições podem ser vistas na equação de um modelo de regressão prototípico: Um modelo com incerteza (talvez devido a erro de medição) em também pode ter o mesmo processo de geração de dados, mas o modelo estimada teria a seguinte aparência: que representa erro de medição aleatório. (Situações como essa levaram a erros nos modelos de variáveis ; um resultado básico é que, se houver erro de medição em , o ingênuo
Uma conseqüência prática da assimetria intrínseca na suposição típica é que a regressão de em é diferente da regressão de em . (Veja minha resposta aqui: qual é a diferença entre fazer regressão linear em y com x versus x com y? Para uma discussão mais detalhada desse fato.)
As suposições do modelo clássico de regressão linear incluem:
Embora as respostas aqui já ofereçam uma boa visão geral da suposição OLS clássica, você pode encontrar uma descrição mais abrangente da suposição do modelo de regressão linear clássica aqui:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Além disso, o artigo descreve as consequências caso alguém viole certas suposições.
O que da?!
Uma resposta é que conjuntos de suposições um pouco diferentes podem ser usados para justificar o uso da estimativa de mínimos quadrados ordinários (OLS). O OLS é uma ferramenta como um martelo: você pode usar um martelo nas unhas, mas também pode usá-lo em estacas, para quebrar o gelo, etc.
Duas grandes categorias de premissas são aquelas que se aplicam a amostras pequenas e aquelas que se baseiam em amostras grandes para que o teorema do limite central possa ser aplicado.
Pequenas suposições de amostra, como discutidas em Hayashi (2000), são:
De acordo com (1) - (4), o teorema de Gauss-Markov se aplica, e o estimador de mínimos quadrados ordinário é o melhor estimador linear e imparcial.
Assumir ainda termos de erro normais permite o teste de hipóteses . Se os termos do erro forem condicionalmente normais, a distribuição do estimador OLS também será condicionalmente normal.
Outro ponto digno de nota é que, com normalidade, o estimador OLS também é o estimador de probabilidade máxima .
Essas suposições podem ser modificadas / relaxadas se tivermos uma amostra grande o suficiente para podermos confiar na lei de grandes números (para consistência do estimador OLS) e no teorema do limite central (para que a distribuição amostral do estimador OLS converja para a distribuição normal e podemos fazer testes de hipóteses, falar sobre valores-p etc ...).
Hayashi é um cara de macroeconomia e suas grandes suposições de amostra são formuladas com o contexto de séries temporais em mente:
Você pode encontrar versões mais fortes dessas suposições, por exemplo, que os termos de erro são independentes.
Pressupostos adequados de amostra grande levam você a uma distribuição amostral do estimador OLS que é assintoticamente normal.
Hayashi, Fumio, 2000, Econometria
É tudo sobre o que você quer fazer com o seu modelo. Imagine se seus erros foram positivamente distorcidos / não normais. Se você quisesse fazer um intervalo de previsão, poderia fazer melhor do que usar a distribuição t. Se sua variação for menor em valores previstos menores, novamente, você estará criando um intervalo de previsão muito grande.
É melhor entender por que as suposições existem.
Os diagramas a seguir mostram quais premissas são necessárias para obter quais implicações nos cenários finito e assintótico.
Eu acho que é importante pensar não apenas sobre quais são as suposições, mas quais são as implicações dessas suposições. Por exemplo, se você se preocupa apenas em ter coeficientes imparciais, não precisa da homosquasticidade.
A seguir, são apresentadas as premissas da análise de regressão linear.
Especificação correta . A forma funcional linear está especificada corretamente.
Exogeneidade estrita . Os erros na regressão devem ter média condicional zero.
Sem multicolinearidade . Os regressores em X devem ser todos linearmente independentes.
Homocedasticidade, o que significa que o termo de erro tem a mesma variação em cada observação.
Sem autocorrelação : os erros não são correlacionados entre as observações.
Normalidade. Às vezes, também é assumido que os erros têm distribuição normal condicional nos regressores.
Observações de Iid : são independentes e têm a mesma distribuição que, para todos os .
Para mais informações, visite esta página .
Não existe uma lista única de suposições; haverá pelo menos 2: uma para matriz de design fixa e outra para matriz de design aleatório. Além disso, você pode querer examinar as suposições para regressões de séries temporais (consulte a p.13)
O caso em que a matriz de projeto é fixa pode ser a mais comum, e suas suposições são frequentemente expressas como um teorema de Gauss-Markov . O design fixo significa que você realmente controla os regressores. Por exemplo, você realiza um experimento e pode definir parâmetros como temperatura, pressão etc. Veja também a p.13 aqui .
Infelizmente, em ciências sociais como a economia, você raramente pode controlar os parâmetros do experimento. Geralmente, você observa o que acontece na economia, registra as métricas do ambiente e depois regride nelas. Acontece que é uma situação muito diferente e mais difícil, chamada de design aleatório . Nesse caso, o teorema de Gauss-Markov é modificado também ver p.12 aqui . Você pode ver como as condições agora são expressas em termos de probabilidades condicionais , o que não é uma mudança inócua.
Em econometria, as premissas têm nomes:
Observe que eu nunca mencionei normalidade. Não é uma suposição padrão. É frequentemente usado em cursos de regressão introdutória porque facilita algumas derivações, mas não é necessário para que a regressão funcione e tenha boas propriedades.
A suposição de linearidade é que o modelo é linear nos parâmetros. É bom ter um modelo de regressão com efeitos de ordem quadrática ou superior, desde que a função de potência da variável independente faça parte de um modelo aditivo linear. Se o modelo não contiver termos de ordem superior quando deveria, a falta de ajuste será evidente no gráfico dos resíduos. No entanto, os modelos de regressão padrão não incorporam modelos nos quais a variável independente é elevada à potência de um parâmetro (embora existam outras abordagens que possam ser usadas para avaliar esses modelos). Tais modelos contêm parâmetros não lineares.
O coeficiente de regressão de mínimos quadrados fornece uma maneira de resumir a tendência de primeira ordem em qualquer tipo de dados. A resposta do @mpiktas é um tratamento completo das condições sob as quais os mínimos quadrados são cada vez mais ideais. Eu gostaria de ir para o outro lado e mostrar o caso mais geral quando menos quadrados funcionam. Vamos ver a formulação mais geral da equação dos mínimos quadrados:
É apenas um modelo linear para a média condicional da resposta.
Observe que contratei o termo de erro. Se você quiser resumir a incerteza de , deve recorrer ao teorema do limite central. A classe mais geral de estimadores de mínimos quadrados converge para o normal quando a condição de Lindeberg é atendida : fervida, a condição de Lindeberg para mínimos quadrados exige que a fração do maior resíduo quadrado ao somatório da soma dos resíduos quadrados seja 0. . Se o seu projeto continuar amostrando resíduos cada vez maiores, o experimento estará "morto na água".
Quando a condição de Lindeberg é atendida, o parâmetro de regressão está bem definido e o estimador é um estimador imparcial que possui uma distribuição aproximada conhecida. Estimadores mais eficientes podem existir. Em outros casos de heterocedasticidade ou dados correlatos, geralmente um estimador ponderado é mais eficiente . É por isso que eu nunca defendia o uso de métodos ingênuos quando métodos melhores estão disponíveis. Mas eles geralmente não são!