Para condições não normais, às vezes se recorre a uma regressão robusta , especialmente usando os links para métodos .
Para apresentar o contexto de não normalidade, pode ser útil revisar as suposições para a regressão linear do OLS , que são:
- Exogeneidade fraca . Isso significa essencialmente que as variáveis preditoras, x , podem ser tratadas como valores fixos, em vez de variáveis aleatórias. Isso significa, por exemplo, que as variáveis preditoras são consideradas livres de erros - isto é, não estão contaminadas por erros de medição. Essa suposição é a que é violada com mais freqüência e leva a erros conforme enumerados após esta lista de suposições.
- Linearidade. Isso significa que a média da variável resposta é uma combinação linear dos parâmetros (coeficientes de regressão) e das variáveis preditoras. Observe que essa suposição é muito menos restritiva do que pode parecer à primeira vista. Como as variáveis preditoras são tratadas como valores fixos (veja acima), a linearidade é realmente apenas uma restrição nos parâmetros. As próprias variáveis preditivas podem ser transformadas arbitrariamente e, de fato, várias cópias da mesma variável preditora subjacente podem ser adicionadas, cada uma transformada de forma diferente.
- Variação constante (também conhecida como homoscedasticidade). Isso significa que valores diferentes da variável de resposta têm a mesma variação em seus erros, independentemente dos valores das variáveis preditoras. Na prática, essa suposição é inválida (ou seja, os erros são heterocedásticos) se a variável de resposta puder variar em uma ampla escala. Para verificar a variação heterogênea do erro, ou quando um padrão de resíduos viola as premissas do modelo de homocedasticidade (o erro é igualmente variável em torno da 'linha de melhor ajuste' para todos os pontos de x), é prudente procurar um "efeito de ventilação" entre o erro residual e os valores previstos. Isto é, haverá uma mudança sistemática nos resíduos absolutos ou quadrados quando plotados em relação às variáveis preditivas. Os erros não serão distribuídos uniformemente pela linha de regressão. A heterocedasticidade resultará na média de variações distintas em torno dos pontos para obter uma variação única que representa imprecisa- mente todas as variações da linha. De fato, os resíduos aparecem agrupados e espalhados em suas plotagens previstas para valores maiores e menores para pontos ao longo da linha de regressão linear, e o erro quadrático médio para o modelo estará errado.
- Independência de erros. Isso pressupõe que os erros das variáveis de resposta não sejam correlacionados entre si. (A independência estatística real é uma condição mais forte do que a mera falta de correlação e muitas vezes não é necessária, embora possa ser explorada se for conhecida. Isso pode ser examinado com análise de cluster e correção para interação.) Alguns métodos (por exemplo, generalizados mínimos quadrados) são capazes de lidar com erros correlatos, embora normalmente exijam significativamente mais dados, a menos que algum tipo de regularização seja usado para influenciar o modelo no sentido de assumir erros não correlacionados. A regressão linear bayesiana é uma maneira geral de lidar com esse problema.
A relação estatística entre os termos de erro e os regressores desempenha um papel importante na determinação de se um procedimento de estimativa possui propriedades de amostragem desejáveis, como ser imparcial e consistente.
O arranjo ou distribuição de probabilidade das variáveis preditoras x tem uma grande influência na precisão das estimativas de β. Amostragem e desenho de experimentos são subcampos estatísticos altamente desenvolvidos que fornecem orientações para a coleta de dados de maneira a obter uma estimativa precisa de β.
Como esta resposta ilustra, simulada Student's- distribuído -axis erros a partir de uma linha de ligação para linhas de regressão OLS com intervalos de confiança para o declive e que o aumento no tamanho que os graus de liberdade ( ) diminuição. Para , Student's- é uma distribuição de Cauchy e os intervalos de confiança para inclinação tornar-se .tydfdf=1t(−∞,+∞)
É arbitrário invocar a distribuição de Cauchy com relação aos resíduos, no sentido de que, quando os erros de geração são distribuídos por Cauchy, os resíduos de OLS de uma linha espúria através dos dados seriam ainda menos confiáveis, ou seja, lixo dentro --- lixo fora. Nesses casos, pode-se usar a regressão de Theil-Sen . Theil-Sen é certamente mais robusto que o OLS para resíduos não-normais, por exemplo, o erro distribuído de Cauchy não degradaria os intervalos de confiança e, diferentemente do OLS, também é uma regressão bivariada, no entanto, no caso bivariado, ainda é enviesado. A regressão de Passing-Bablok pode ser mais bivariada e imparcial, mas não se aplica a inclinações de regressão negativas. É mais comumente usado para estudos de comparação de métodos. Deve-se mencionar a regressão de Demingaqui, ao contrário das regressões de Theil-Sen e Passing-Bablok, é uma solução real para o problema bivariado, mas carece da robustez dessas outras regressões. A robustez pode ser aumentada pela truncagem de dados para incluir os valores mais centrais, por exemplo, o consenso de amostra aleatória (RANSAC) é um método iterativo para estimar parâmetros de um modelo matemático a partir de um conjunto de dados observados que contém discrepâncias.
O que é então regressão bivariada? A falta de teste da natureza bivariada dos problemas é a causa mais frequente da diluição da regressão do OLS e foi bem apresentada em outras partes deste site. O conceito de viés de OLS neste contexto não é bem reconhecido, veja, por exemplo, Frost e Thompson, como apresentado por Longford et al. (2001), que remete o leitor a outros métodos, expandindo o modelo de regressão para reconhecer a variabilidade na variável , para que não ocorra viés . Em outras palavras, a regressão de casos bivariados às vezes não pode ser ignorada quando ambos - ex1 x y x y y 2 x y x y = f ( x )1xy-valores são distribuídos aleatoriamente. A necessidade de regressão bivariada pode ser testada ajustando uma linha de regressão OLS aos resíduos de uma regressão OLS dos dados. Então, se os resíduos de OLS tiverem uma inclinação diferente de zero, o problema será bivariado e a regressão dos dados de OLS terá uma magnitude de inclinação muito rasa e uma interceptação de magnitude muito grande para ser representativa da relação funcional entre e . Nesses casos, o estimador linear de menor erro de valores ainda seria da regressão OLS, e seu valor R estará no valor máximo possível, mas a linha de regressão OLS não representará a função de linha real que se relaciona o exyy2xy variáveis aleatórias. Como um contra-exemplo, quando, como ocorre entre outros problemas em uma série temporal com valores equidistantes , o OLS dos dados brutos nem sempre é inadequado, pode representar a melhor linha , mas ainda está sujeito a transformação de variável, por exemplo, para dados de contagem, usaria a raiz quadrada das contagens para converter os erros do erro distribuído de Poisson em condições mais normais, e ainda deve-se verificar se há inclinação diferente de zero dos resíduos. xy=f(x)
- Longford, NT (2001). "Correspondência". Jornal da Sociedade Estatística Real, Série A. 164: 565. doi: 10.1111 / 1467-985x.00219