É realista que todas as variáveis sejam altamente significativas em um modelo de regressão múltipla?

8

Quero regredir a economia de combustível no deslocamento do motor, tipo de combustível, tração nas duas rodas vs. 4 rodas, potência, transmissão manual vs. automática e número de velocidades. Meu conjunto de dados ( link ) contém veículos de 2012 a 2014.

fuelEconomy em milhas por galão
engineDisplacement: tamanho do motor em litros
fuelStd: 1 para gás 0 para diesel
wheelDriveStd: 1 para tração nas duas rodas, 0 para tração nas quatro rodas
hp: potência
transStd: 1 para automático, 0 para manual
transSpeed: Número de velocidades

Código R:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16

Os resultados são realistas ou estou fazendo algo errado aqui, pois a maioria das variáveis é altamente estatisticamente significativa?
Outros modelos são melhores para esse fim?
Esse resultado é utilizável para interpretação?

r statistical-significance multiple-regression interpretation

— Bert
fonte

5

O @AntoniParelleada fez um bom trabalho demonstrando algumas das técnicas de diagnóstico padrão do modelo que você pode usar para avaliar seu modelo. Entendo que sua principal preocupação é que "a maioria das variáveis é altamente estatisticamente significativa".

Não vejo que você precise se preocupar com isso, por si só. Pela sua saída, vejo que o modelo possui um F-statistic: 1566 on 6 and 2648 DF. Isso significa que você está ajustando parâmetros para variáveis e possui dados. Isso lhe dá uma enorme quantidade de poder estatístico . Supondo que exista qualquer relação entre suas variáveis e a resposta, que não seja completamente trivial, você deverá obter um resultado significativo. Estou mais surpreso que qualquer coisa (ou seja ) não seja significativa. $6$ $6$ $2655$ transSpeed

Talvez sua pergunta seja motivada pela crença de que, do ponto de vista teórico, alguma variável não deve ser relacionada fuelEconomye, portanto, você fica surpreso que seja significativo. (Se isso fosse verdade, no entanto, seria incomum incluí-lo no modelo.) Mas um resultado significativo não significa necessariamente que uma covariável tenha um efeito sobre a resposta, portanto, não precisa ser do tipo I erro . Como seus dados são quase certamente observacionais, você está apenas detectando associações marginais. Ou seja, carros com tração dianteira, por exemplo, também podem diferir dos carros com tração traseira de maneiras diferentes das quais as rodas transmitem energia e outras que as outras variáveis incluídas no modelo. Assim, o coeficiente para wheelDriveStdmedir a associação entre elee todas as variáveis não incluídas se correlacionaram com ele e fuelEconomy. Portanto, pode ser razoável que seja significativo, mesmo se soubéssemos pela física / engenharia que as rodas transmitem energia não estão relacionadas à eficiência de combustível.

— - Reinstate Monica
fonte

Eu tenho mais conhecimento de aprendizado de máquina do que estatística. Podemos dizer que, se tivermos grandes dados, digamos milhões de linhas e mil colunas, ninguém mais se preocupa com o recurso "significado"?

— Haitao Du

3

Eu não necessariamente caracterizaria dessa maneira, @ hxd1011. Se realmente não houver associação, a taxa de erro do tipo I ainda será 0,05, para que alguém ainda possa se importar, mas você terá poder suficiente para detectar até efeitos muito triviais. Como analogia, pode ser útil ler O teste de normalidade é 'essencialmente inútil'?

— gung - Restabelece Monica

Realmente informativo. Gostaria de saber se existe alguma linha que você possa adicionar para fornecer alguma referência / perspectiva para que possamos ter uma idéia intuitiva de sua afirmação sobre a enorme quantidade de poder estatístico baseado na estatística F.

— Antoni Parellada

2

N = 2, 655

$N = 2,655$

Obrigado! Com estatísticas Eu sempre assumir que tem de ser mais "escondido" ... :-)

— Antoni Parellada

4

Eu sei muito pouco sobre a mecânica e a física envolvidas, mas a primeira coisa que eu examinaria é o diagnóstico de regressão, em particular, os gráficos de resíduos versus valores ajustados, para os quais gostaríamos que não houvesse um padrão geral.

Você ajustou um modelo linear para que cada covariável tenha uma associação linear com fuelEconomy. Isso é suportado pela teoria mecânica e física subjacente? Poderia haver alguma associação não linear? Nesse caso, você pode considerar modelos com termos não lineares, transformar determinadas variáveis ou usar um modelo aditivo. Mesmo que as associações sejam plausivelmente lineares dentro do seu conjunto de dados real, tenha muito cuidado em extrapolar os resultados além dos limites de dados.

— Robert Long
fonte

4

Uma matriz de dispersão com curvas de loess e valores de correlação (valores absolutos) pode ser um bom ponto de partida:

Podemos notar aqui a relação possivelmente quadrática de fuelEconomyplotada contra ambas lineDisplacemente hp, que também se reflete em uma aparência da Nike swoosh na plotagem residual . Seria interessante investigar a presença de uma interação entre esses termos.

Essa falta de linearidade também é aparente se executarmos uma regressão linear de fuelEconomycontra linearDisplacement(resultados semelhantes podem ser obtidos com hp). Observe a linha vermelha ...

Esse efeito pode ser parcialmente retificado, tornando o modelo mais complexo e introduzindo um modelo quadrático:

$0.8205$ $0.7798$

A natureza dicotômica fuelStde wheeldriveStdsimplesmente move a média dos valores previstos para baixo e, na verdade, são variáveis ou fatores com código fictício. Isso também é aparente no gráfico de dispersão inicial, mas pode ser visualizado com gráficos de caixa:

Um ponto final no diagnóstico é a presença de pontos de alavancagem altos , que valem a pena considerar:

O que concluir? Nada categórico. Talvez apenas para enfatizar a importância da plotagem no entendimento do conjunto de dados e de qualquer modelo imposto a ele.

— Antoni Parellada
fonte

1

A resposta para sua primeira pergunta depende do seu referencial teórico, como você declara as hipóteses sobre a relação entre variáveis dependentes e independentes e como interpreta os resultados. Por si só, obter um relacionamento estatisticamente significativo para a maioria das variáveis pode não dizer nada sobre o quão realistas são os seus resultados.

Portanto, se esses resultados lhe parecerem suspeitos (com base no seu conhecimento anterior), você poderá executar alguns testes de diagnóstico para regressão. Pode haver uma violação das premissas do modelo e outros problemas (por exemplo, discrepantes). De fato, é sempre útil executar esses testes para avaliar seu modelo de regressão. Como você está usando R, você pode verificar o carpacote que fornece várias funções para testes de diagnóstico. Aqui você encontra os slides do curso sobre diagnóstico de regressão de um dos autores (e do criador) do carpacote, John Fox. Você pode conferir o livro dele sobre o tema (1991) também. Kabacoff (2011) também discutiu o diagnóstico de regressão e como usar Rfunções (incluindo aquelas decarpacote) e interpretar os resultados (p.188-200). Acho que após esses testes de diagnóstico, é melhor avaliar os resultados e como eles são utilizáveis.

Fox, J. (1991). Diagnóstico de regressão . Newbury Park, Londres, Nova Deli: Sage Publications.

Kabacoff, RI (2011). R em Ação: A análise dos dados e gráficos com R . Shelter Island: Manning.

Além disso:

Fox, J. & Weisberg, S. (2011). Diagnosticando problemas em modelos lineares e lineares generalizados. In An R Companion to Applied Regression (2ª ed., Pp. 285-328). Los Angeles: Publicações Sábias.

— TEG - Restabelecer Monica
fonte

É realista que todas as variáveis ​​sejam altamente significativas em um modelo de regressão múltipla?

É realista que todas as variáveis sejam altamente significativas em um modelo de regressão múltipla?