compreensão do valor-p na regressão linear múltipla

Em relação ao valor-p da análise de regressão linear múltipla, a introdução do site do Minitab é mostrada abaixo.

O valor p para cada termo testa a hipótese nula de que o coeficiente é igual a zero (sem efeito). Um valor p baixo (<0,05) indica que você pode rejeitar a hipótese nula. Em outras palavras, é provável que um preditor que tenha um valor p baixo seja uma adição significativa ao seu modelo, porque alterações no valor do preditor estão relacionadas a alterações na variável de resposta.

Por exemplo, eu tenho um modelo MLR resultante como . e a saída é mostrada abaixo. Então um pode ser calculado usando esta equação. $y=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+4.5424{{X}_{4}}+14.48$ $y$

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Com base na introdução acima, a hipótese nula é que o coeficiente é igual a 0. Meu entendimento é que o coeficiente, por exemplo, o coeficiente de , será definido como 0 e outro y será calculado como . Em seguida, um teste t emparelhado é conduzida para e , mas a p-valor deste t-teste é 6.9e-12, que não é igual a 0,1292 (p-valor de coeficiente de . $X_{4}$ $y_{2}=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+0{{X}_{4}}+14.48$ $y$ $y_{2}$ $X_{4}$

Alguém pode ajudar no entendimento correto? Muito Obrigado!

multiple-regression p-value

— user2230101
fonte

você pode mostrar a saída da rotina de regressão?

— Aksakal

Sua descrição do cálculo do valor-p não é padrão. Por que você acha que deve ser calculado da maneira que descreve? O valor p na saída é calculado a partir da matriz de parâmetros Var-Cov. Se você deseja executar o teste de restrição, como Wald, não é assim que você descreve. Você teria que re-estimar o modelo com 3 variáveis, obter loglikelihood etc.

— Aksakal

De acordo com essa introdução, você tem apenas uma variável "significativa" - a "interceptação" - porque apenas seu valor p é pequeno. Para ir além da prática ingênua e enganosa na cotação, você precisa aprender mais sobre a regressão múltipla. Para ver o que pode ser aprendido a esse respeito, considere explorar tópicos relevantes em nosso site .

— whuber

Verifique as respostas para essas duas perguntas: - stats.stackexchange.com/questions/5135/… e - stats.stackexchange.com/questions/126179/… Eles me ajudaram a entender como os valores de p são calculados, espero que você os encontre útil também.

— Giacomo

Respostas:

Isso está incorreto por alguns motivos:

O modelo "sem" X4 não terá necessariamente as mesmas estimativas de coeficiente para os outros valores. Ajuste o modelo reduzido e veja você mesmo.
$Y$
O teste estatístico realizado para a significância estatística do coeficiente é um teste t de uma amostra. Isso é confuso, pois não temos uma "amostra" de coeficientes múltiplos para X4, mas temos uma estimativa das propriedades distributivas de uma amostra usando o teorema do limite central. O erro médio e padrão descrevem a localização e a forma dessa distribuição limitadora. Se você pegar a coluna "Est" e dividir por "SE" e comparar com uma distribuição normal padrão, isso fornecerá os valores de p na quarta coluna.
Um quarto ponto: uma crítica à página de ajuda do minitab. Esse arquivo de ajuda não poderia, em um parágrafo, resumir anos de treinamento estatístico; portanto, não preciso lidar com tudo. Mas dizer que um "preditor" é "uma contribuição importante" é vago e provavelmente incorreto. A lógica para escolher quais variáveis incluir em um modelo multivariado é sutil e depende de raciocínio científico e não de inferência estatística.

— AdamO
fonte

Sua interpretação inicial dos valores-p parece correta, ou seja, apenas a interceptação tem um coeficiente significativamente diferente de 0. Você notará que a estimativa do coeficiente para x4 ainda é bastante alta, mas há erro suficiente que não é significativamente diferente de 0.

Seu teste t emparelhado de y1 e y2 sugere que os modelos são diferentes um do outro. Isso é de se esperar, em um modelo você incluiu um coeficiente grande, porém impreciso, que contribui bastante para o seu modelo. Não há razão para pensar que o valor p desses modelos sendo diferentes um do outro deve ser o mesmo que o valor p do coeficiente de x4 sendo diferente de 0.

— Nuclear Wang
fonte