Regressão quantílica revelando diferentes relações em diferentes quantis: como?

Às vezes, diz-se que a regressão quantílica (QR) revela diferentes relações entre variáveis em diferentes quantis da distribuição. Por exemplo, Le Cook et al. "Pensando além da média: um guia prático para o uso de métodos de regressão quantílica para pesquisa em serviços de saúde" implica que o QR permita que as relações entre os resultados de interesse e as variáveis explicativas sejam inconstantes em diferentes valores das variáveis.

No entanto, tanto quanto eu sei, em um modelo de regressão linear padrão com sendo iid e independente de , o estimador QR para a inclinação

y = β_{0} + β X + ε

$y = \beta_0 + \beta X + \varepsilon$

ε

$\varepsilon$

X

$X$

β

$\beta$ é consistente para a inclinação da população (que é única e de forma alguma varia entre os quantis). Ou seja, o objeto que está sendo estimado é sempre o mesmo, independentemente do quantil. É certo que esse não é o caso da interceptação, uma vez que o estimador de interceptação QR visa estimar um quantil específico da distribuição de erros. Tomados em conjunto, não vejo como as diferentes relações entre variáveis devem ser reveladas em diferentes quantis via QR. Acho que isso é uma propriedade do modelo de regressão linear padrão, e não um erro no meu entendimento, mas não tenho certeza.

Suponho que a situação seja diferente quando algumas das suposições do modelo linear padrão são violadas, por exemplo, sob certas formas de heterocedasticidade condicional. Então, talvez os estimadores de declive QR converjam para algo que não seja a verdadeira inclinação do modelo linear e de alguma forma revele relações diferentes em diferentes quantis.

O que estou errado? Como devo entender / interpretar adequadamente a afirmação de que a regressão quantílica revela diferentes relações entre variáveis em diferentes quantis?

interpretation quantile-regression

— Richard Hardy
fonte

Existem várias maneiras de pensar sobre o QR. Uma é que é um tipo de regressão do kernel em que os núcleos são os quantis. Dessa maneira, é uma abordagem não paramétrica e robusta na qual soluções lineares não podem ser assumidas. Hyndman, et al. Propuseram a regressão quantílica adaptativa aprimorada como uma estrutura global para modelagem baseada em QR. Cópia ungated aqui ... robjhyndman.com/papers/sig-alternate.pdf

— Mike Hunter

@DJohnson, obrigado. Acho que sou muito influenciado pelo artigo original Koenker e Bassett (1978), onde a motivação é apenas encontrar um estimador de inclinação robusto no modelo linear padrão, em vez de suscitar relações diferentes em diferentes quantis.

— Richard Hardy

Não há dúvida de que jornais como Koenker e Bassett impactam como futuros analistas formulam uma pergunta. Outro bom artigo sobre QR é 2013, de Le Cook e Manning, * Thinking Beyond the Mean: um guia prático para o uso de métodos de regressão quantílica "... cópia sem porta aqui ... dash.harvard.edu/bitstream/handle/1/12406692/ ... FWIW ... mas seu foco é cuidar da saúde ...

— Mike Hunter

$x$ $x$ $x$ . No QR, você verá isso imediatamente a partir de estimativas de inclinação muito diferentes. Como o OLS se preocupa apenas com a média (ou seja, o quantil médio), você não pode modelar cada quantil separadamente. Lá, você depende totalmente da suposição de forma fixa da distribuição condicional ao fazer declarações sobre seus quantis.

EDIT: Incorporar comentário e ilustrar

Se você deseja fazer essas suposições fortes, não há muito sentido em executar o QR, pois sempre é possível calcular quantis condicionais por média condicional e variância fixa. As inclinações "verdadeiras" de todos os quantis serão iguais à inclinação verdadeira da média. Em uma amostra específica, é claro que haverá alguma variação aleatória. Ou você pode até detectar que suas suposições estritas estavam erradas ...

y = x + x ε, ε \sim N (0, 1) iid,

$y = x + x \varepsilon, \quad \varepsilon \sim N(0, 1) \ \text{iid},$

y

$y$

x

$x$

As linhas de regressão da média e da mediana são essencialmente idênticas devido à distribuição condicional simétrica. A inclinação deles é 1.
A linha de regressão do quantil de 80% é muito mais íngreme (inclinação 1,9), enquanto a linha de regressão do quantil de 20% é quase constante (inclinação 0,3). Isso combina bem com a variação extremamente desigual.
$x$

O código para gerar a imagem:

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))

— Michael M
fonte

x

$x$

Exatamente. Se você deseja fazer essas suposições fortes, não há muito sentido em executar o QR, pois sempre é possível calcular quantis condicionais por média condicional e variância fixa. As inclinações "verdadeiras" de todos os quantis serão iguais à inclinação verdadeira da média. Na amostra, haverá alguma variação aleatória. Ou você pode até detectar que seus pressupostos rigorosos estavam errados ... ;-)

— Michael M

Isso faz sentido. Na amostra, acho que as estimativas da inclinação do QR para diferentes quantis provavelmente se espalharão um pouco de acordo com os quantis. Isso ocorre porque a função de perda que está sendo minimizada arrastará o estimador assimetricamente para um lado (a direção e a magnitude do arrasto, dependendo do quantil), embora assintoticamente esse efeito se torne cada vez menor.

— Richard Hardy

É uma boa resposta, e obrigado por isso, mas eu me pergunto se você poderia ilustrar com um exemplo simples como o QR revela diferentes relações em diferentes quantis quando algumas das suposições padrão (por exemplo, homosquasticidade) não se mantêm.

— Richard Hardy

x

$x$

x

$x$

y = x + x ε

$y=x+x\varepsilon$

ε \sim i . i . N (0, 1)

$\varepsilon \sim i.i.N(0,1)$