Qual é a distribuição de na regressão linear sob a hipótese nula? Por que seu modo não é zero quando ?


26

Qual é a distribuição do coeficiente de determinação, ou R ao quadrado, , na regressão múltipla linear univariada sob a hipótese nula ?H 0 : β = 0R2H0:β=0

Como isso depende do número de preditores número de amostras ? Existe uma expressão de forma fechada para o modo desta distribuição?n > kkn>k

Em particular, sinto que, para regressão simples (com um preditor ), essa distribuição tem modo em zero, mas, para regressão múltipla, o modo está em um valor positivo diferente de zero. Se isso é verdade, existe uma explicação intuitiva dessa "transição de fase"?x


Atualizar

Como @Alecos mostrou abaixo, a distribuição realmente atinge o pico de zero quando k=2 e k=3 e não de zero quando k>3 . Sinto que deve haver uma visão geométrica dessa transição de fase. Considere a vista geométrica do OLS: y é um vetor em Rn , X define um subespaço k dimensional lá. O OLS equivale a projetar y neste subespaço, e R2 é quadrado cosseno ao ângulo entre y e sua projeção y^ .

Agora, a partir da resposta de @ Alecos, conclui-se que, se todos os vetores forem aleatórios, a distribuição de probabilidade desse ângulo atingirá um pico de para e , mas terá um modo com algum outro valor para . Por quê?! k = 2 k = 3 < 90 k > 390k=2k=3<90k>3


Atualização 2: Estou aceitando a resposta do @ Alecos, mas ainda sinto que estou perdendo algumas informações importantes aqui. Se alguém sugerir outra visão (geométrica ou não) sobre esse fenômeno que o tornaria "óbvio", terei prazer em oferecer uma recompensa.


11
Você está disposto a assumir a normalidade do erro?
Dimitriy V. Masterov

11
Sim, acho que é preciso assumi-lo para tornar essa pergunta responsável (?).
Ameba diz Reinstate Monica


11
@ Khashaa: na verdade, tenho que admitir que encontrei a página do blogspot antes de postar minha pergunta aqui. Honestamente, eu ainda queria ter uma discussão sobre esse fenômeno em nosso fórum, então fingi que não via isso.
Ameba diz Reinstate Monica

Respostas:


33

Para a hipótese específica (de que todos os coeficientes do regressor são zero, sem incluir o termo constante, que não é examinado neste teste) e com normalidade, sabemos (ver, por exemplo, Maddala 2001, p. 155, mas observe que, conta o regressores sem o termo constante, para que a expressão pareça um pouco diferente) que a estatísticak

é distribuído como um centroF(k-1,n-k)variável aleatória.

F=nkk1R21R2
F(k1,nk)

Observe que, embora não testemos o termo constante, conta também.k

Movendo as coisas,

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

Mas o lado direito é distribuído como uma distribuição Beta , especificamente

R2Beta(k12,nk2)

O modo desta distribuição é

modeR2=k121k12+nk22=k3n5

MODO FINITO E ÚNICO
Da relação acima, podemos inferir que, para a distribuição ter um modo único e finito, devemos ter

k3,n>5

Isso é consistente com o requisito geral para uma distribuição Beta, que é

{α>1,β1},OR{α1,β>1}

como se pode inferir a partir deste tópico do CV ou leia aqui .
Note que se , obtemos a distribuição Uniform, então todos os pontos de densidade são modos (finito, mas não exclusivo). Que cria a questão: Por, se K = 3 , n = 5 , R 2 é distribuído como um L ( 0 , 1 ) ?{α=1,β=1}k=3,n=5R2U(0,1)

IMPLICAÇÕES
Suponha que você tenha regressores (incluindo a constante) e n = 99 observações. Regressão bastante agradável, sem sobreajuste. Entãok=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

e gráfico de densidade

insira a descrição da imagem aqui

A intuição, por favor: esta é a distribuição de sob a hipótese de que nenhum regressor realmente pertence à regressão. Portanto, a) a distribuição é independente dos regressores; b) à medida que o tamanho da amostra aumenta, sua distribuição é concentrada em zero, à medida que o aumento da informação altera a variabilidade de pequenas amostras que podem produzir algum "ajuste", mas também c) como o número de regressores irrelevantes aumenta para determinado tamanho da amostra, a distribuição se concentra em 1 e temos o fenômeno "ajuste espúrio". R21

Mas também, nota como "fácil" é a rejeitar a hipótese nula: no exemplo particular, para probabilidade cumulativa já atingiu 0,99 , portanto, uma obtido R 2 > 0,13 irá rejeitar a hipótese nula de "regressão insignificante" no nível de significância 1 %.R2=0.130.99R2>0.131

ADENDO
para responder à nova questão sobre o modo de de distribuição, o que posso oferecer a seguinte linha de pensamento (e não geométrica), que liga ao fenômeno de "ajuste espúria": quando executado mínimos quadrados em um conjunto de dados , resolvemos essencialmente um sistema de n equações lineares com k incógnitas (a única diferença da matemática do ensino médio é que naquela época chamamos de "coeficientes conhecidos" o que em regressão linear chamamos de "variáveis ​​/ regressores", "desconhecido x" o que agora chame "coeficientes desconhecidos" e "termos constantes", o que sabemos chamar de "variável dependente"). Contanto que k < nR2nkk<no sistema é sobre-identificado e não existe uma solução exacta, apenas aproximado -e a diferença surge como "variância inexplicada da variável dependente", que é capturada por . Se k = n, o sistema possui uma solução exata (assumindo independência linear). No meio, à medida que aumentamos o número de k , reduzimos o "grau de superidentificação" do sistema e "avançamos" na direção da única solução exata. Sob este ponto de vista, não faz sentido por R 2 aumenta espuriamente com a adição de regressões irrelevantes, e, consequentemente, move-se por isso que os seus modo gradualmente para 1 , como k aumenta para dada1R2k=nkR21k .n


11
É matemático. Para o primeiro parâmetro da distribuição beta (o " α " na notação padrão) se torna menor que a unidade. Nesse caso, a distribuição Beta não tem modo finito, brinque com keisan.casio.com/exec/system/1180573226 para ver como as formas mudam. k=2α
Alecos Papadopoulos

11
@Alecos Excelente resposta! (+1) Posso sugerir fortemente que você adicione à sua resposta o requisito para a existência do modo? Este é normalmente referida como e β > 1 , mas de forma mais sutil, é ok se a igualdade detém em um dos dois ... Eu acho que para os nossos propósitos isso se torna k 3 e n k + 2 e pelo menos um dos essas desigualdades são estritas . α>1β>1k3 nk+2
amigos estão

2
@Khashaa Exceto se a teoria exigir, nunca excluo o intercepto da regressão - é o nível médio da variável dependente, regressores ou nenhum regressor (e esse nível é geralmente positivo, portanto, seria uma especificação errônea auto-criada para omita). Mas eu sempre o excluo do teste F da regressão, pois o que me interessa não é se a variável dependente tem uma média incondicional diferente de zero, mas se os regressores têm algum poder explicativo em relação a desvios dessa média.
Alecos Papadopoulos

11
+1! Existem resultados para a distribuição de para zero β j ? R2βj
Christoph Hanck


18

Não vou rederir o distribuição na excelente resposta do @ Alecos (é um resultado padrão, vejaaquimais uma boa discussão), mas quero preencher mais detalhes sobre as consequências! Em primeiro lugar, o que faz a distribuição nula deR2olhar como para uma gama de valores denek? O gráfico na resposta de @ Alecos é bastante representativo do que ocorre em regressões práticas múltiplas, mas às vezes a percepção é obtida mais facilmente em casos menores. Eu incluí a média, o modo (onde existe) e o desvio padrão. O gráfico / tabela merece um bom globo ocular:melhor visualizado em tamanho real. Eu poderia ter incluído menos facetas, mas o padrão teria sido menos claro; Eu anexeiBeta(k12,nk2)R2nkRcódigo para que os leitores possam experimentar diferentes subconjuntos de e k .nk

Distribution of R2 for small sample sizes

Valores dos parâmetros de forma

O esquema de cores do gráfico indica se cada parâmetro de forma é menor que um (vermelho), igual a um (azul) ou mais de um (verde). O lado esquerdo mostra o valor de enquanto β está à direita. Como α = k - 1αβ , seu valor aumenta na progressão aritmética por uma diferença comum de1α=k12 medida que avançamos de coluna em coluna (adicione um regressor ao nosso modelo) enquanto que, paranfixo,β=n-k12n diminui em1β=nk2 . O totalα+β=n-112 é fixo para cada linha (para um determinado tamanho de amostra). Se, em vez disso, fixarmoske descermos a coluna (aumentar o tamanho da amostra em 1), entãoαpermanecerá constante eβaumentará em1α+β=n12kαβ . Em termos de regressão,αé metade do número de regressores incluídos no modelo eβé metade dos graus residuais de liberdade. Para determinar a forma da distribuição, estamos particularmente interessados ​​em queαouβ sejamiguais.12αβαβ

A álgebra é direta para : temos k - 1αentãok=3. Esta é realmente a única coluna do gráfico da faceta que está preenchida em azul à esquerda. Similarmente,α<1parak<3(acolunak=2é vermelha à esquerda) eα>1parak>3(dacolunak=4 emdiante, o lado esquerdo é verde).k12=1k=3α<1k<3k=2α>1k>3k=4

Para , temos n - kβ=1portanto,k=n-2. Observe como esses casos (marcados com um lado azul à direita) cortam uma linha diagonal no gráfico da faceta. Paraβ>1obtemosk<n-2(os gráficos com o lado esquerdo verde ficam à esquerda da linha diagonal). Paraβ<1, precisamos dek>n-2, que envolve apenas os casos mais à direita no meu gráfico: emn=k, temosβ=0e a distribuição é degenerada, masnnk2=1k=n2β>1k<n2β<1k>n2n=kβ=0n=k1 where β=12 is plotted (right side in red).

Since the PDF is f(x;α,β)xα1(1x)β1, it is clear that if (and only if) α<1 then f(x) as x0. We can see this in the graph: when the left side is shaded red, observe the behaviour at 0. Similarly when β<1 then f(x) as x1. Look where the right side is red!

Symmetries

One of the most eye-catching features of the graph is the level of symmetry, but when the Beta distribution is involved, this shouldn't be surprising!

The Beta distribution itself is symmetric if α=β. For us this occurs if n=2k1 which correctly identifies the panels (k=2,n=3), (k=3,n=5), (k=4,n=7) and (k=5,n=9). The extent to which the distribution is symmetric across R2=0.5 depends on how many regressor variables we include in the model for that sample size. If k=n+12 the distribution of R2 is perfectly symmetric about 0.5; if we include fewer variables than that it becomes increasingly asymmetric and the bulk of the probability mass shifts closer to R2=0; if we include more variables then it shifts closer to R2=1. Remember that k includes the intercept in its count, and that we are working under the null, so the regressor variables should have coefficient zero in the correctly specified model.

There is also an obviously symmetry between distributions for any given n, i.e. any row in the facet grid. For example, compare (k=3,n=9) with (k=7,n=9). What's causing this? Recall that the distribution of Beta(α,β) is the mirror image of Beta(β,α) across x=0.5. Now we had αk,n=k12 and βk,n=nk2. Consider k=nk+1 and we find:

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

So this explains the symmetry as we vary the number of regressors in the model for a fixed sample size. It also explains the distributions that are themselves symmetric as a special case: for them, k=k so they are obliged to be symmetric with themselves!

This tells us something we might not have guessed about multiple regression: for a given sample size n, and assuming no regressors have a genuine relationship with Y, the R2 for a model using k1 regressors plus an intercept has the same distribution as 1R2 does for a model with k1 residual degrees of freedom remaining.

Special distributions

When k=n we have β=0, which isn't a valid parameter. However, as β0 the distribution becomes degenerate with a spike such that P(R2=1)=1. This is consistent with what we know about a model with as many parameters as data points - it achieves perfect fit. I haven't drawn the degenerate distribution on my graph but did include the mean, mode and standard deviation.

When k=2 and n=3 we obtain Beta(12,12) which is the arcsine distribution. This is symmetric (since α=β) and bimodal (0 and 1). Since this is the only case where both α<1 and β<1 (marked red on both sides), it is our only distribution which goes to infinity at both ends of the support.

The Beta(1,1) distribution is the only Beta distribution to be rectangular (uniform). All values of R2 from 0 to 1 are equally likely. The only combination of k and n for which α=β=1 occurs is k=3 and n=5 (marked blue on both sides).

The previous special cases are of limited applicability but the case α>1 and β=1 (green on left, blue on right) is important. Now f(x;α,β)xα1(1x)β1=xα1 so we have a power-law distribution on [0, 1]. Of course it's unlikely we'd perform a regression with k=n2 and k>3, which is when this situation occurs. But by the previous symmetry argument, or some trivial algebra on the PDF, when k=3 and n>5, which is the frequent procedure of multiple regression with two regressors and an intercept on a non-trivial sample size, R2 will follow a reflected power law distribution on [0, 1] under H0. This corresponds to α=1 and β>1 so is marked blue on left, green on right.

You may also have noticed the triangular distributions at (k=5,n=7) and its reflection (k=3,n=7). We can recognise from their α and β that these are just special cases of the power-law and reflected power-law distributions where the power is 21=1.

Mode

If α>1 and β>1, all green in the plot, f(x;α,β) is concave with f(0)=f(1)=0, and the Beta distribution has a unique mode α1α+β2. Putting these in terms of k and n, the condition becomes k>3 and n>k+2 while the mode is k3n5.

All other cases have been dealt with above. If we relax the inequality to allow β=1, then we include the (green-blue) power-law distributions with k=n2 and k>3 (equivalently, n>5). These cases clearly have mode 1, which actually agrees with the previous formula since (n2)3n5=1. If instead we allowed α=1 but still demanded β>1, we'd find the (blue-green) reflected power-law distributions with k=3 and n>5. Their mode is 0, which agrees with 33n5=0. However, if we relaxed both inequalities simultaneously to allow α=β=1, we'd find the (all blue) uniform distribution with k=3 and n=5, which does not have a unique mode. Moreover the previous formula can't be applied in this case, since it would return the indeterminate form 3355=00.

When n=k we get a degenerate distribution with mode 1. When β<1 (in regression terms, n=k1 so there is only one residual degree of freedom) then f(x) as x1, and when α<1 (in regression terms, k=2 so a simple linear model with intercept and one regressor) then f(x) as x0. These would be unique modes except in the unusual case where k=2 and n=3 (fitting a simple linear model to three points) which is bimodal at 0 and 1.

Mean

The question asked about the mode, but the mean of R2 under the null is also interesting - it has the remarkably simple form k1n1. For a fixed sample size it increases in arithmetic progression as more regressors are added to the model, until the mean value is 1 when k=n. The mean of a Beta distribution is αα+β so such an arithmetic progression was inevitable from our earlier observation that, for fixed n, the sum α+β is constant but α increases by 0.5 for each regressor added to the model.

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Code for plots

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Really illuminating visualization. +1
Khashaa

Great addition, +1, thanks. I noticed that you call 0 a mode when the distribution goes to + when x0 (and nowhere else) -- something @Alecos above (in the comments) did not want to do. I agree with you: it is convenient.
amoeba says Reinstate Monica

1
@amoeba from the graphs we'd like to say "values around 0 are most likely" (or 1). But the answer of Alecos is also both self-consistent and consistent with many authorities (people differ on what to do about the 0 and 1 full stop, let alone whether they can count as a mode!). My approach to the mode differs from Alecos mostly because I use conditions on alpha and beta to determine where the formula is applicable, rather than taking my starting point as the formula and seeing which k and n give sensible answers.
Silverfish

1
(+1), this is a very meaty answer. By keeping k too close to n and both small, the question studies in detail, and so decisively, the case of really small samples with relatively too many and irrelevant regressors.
Alecos Papadopoulos

@amoeba You probably noticed that this answer furnishes an algebraic answer for why, for sufficiently large n, the mode of the distribution is 0 for k=3 but positive for k>3. Since f(x)x(k3)/2(1x)(nk2)/2 then for k=3 we have f(x)(1x)(n5)/2 which will clearly have mode at 0 for n>5, whereas for k=4 we have f(x)x1/2(1x)(n6)/2 whose maximum can be found by calculus to be the quoted mode formula. As k increases, the power of x rises by 0.5 each time. It's this xα1 factor which makes f(0)=0 so kills the mode at 0
Silverfish
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.