Eu tenho um conjunto de dados contendo 365 observação de três variáveis pm
, a saber , temp
e rain
. Agora eu quero verificar o comportamento pm
em resposta a alterações em outras duas variáveis. Minhas variáveis são:
pm10
= Resposta (dependente)temp
= preditor (independente)rain
= preditor (independente)
A seguir está a matriz de correlação para meus dados:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
O problema é que, quando eu estava estudando a construção de modelos de regressão, foi escrito que o método aditivo é começar com a variável que está mais altamente relacionada à variável de resposta. No meu conjunto de dados rain
está altamente correlacionado com pm
(em comparação com temp
), mas, ao mesmo tempo, é uma variável fictícia (chuva = 1, sem chuva = 0), então agora tenho uma idéia de onde devo começar. Anexei duas imagens com a pergunta: O primeiro é um gráfico de dispersão dos dados, e a segunda imagem é um gráfico de dispersão da pm10
vs. rain
, eu também sou incapaz de interpretar dispersão de pm10
vs. rain
. Alguém pode me ajudar como começar?