Você está certo de que esses valores informam apenas se a média de cada nível é significativamente diferente da média do nível de referência. Portanto, eles apenas informam sobre as diferenças entre pares entre os níveis. Testar se o preditor categórico, como um todo, é significativo é equivalente a testar se existe alguma heterogeneidade nas médias dos níveis do preditor. Quando não há outros preditores no modelo, este é um problema clássico de ANOVA .p
Quando existem outros preditores no modelo. você tem duas opções para testar a importância de um preditor categórico:
(1) O teste da razão de probabilidade: Suponha que tem um resultado , preditores quantitativos X i 1 , . . . , X i p e o preditor categórico C i com níveis k . O modelo sem o preditor categórico éYiXi1,...,XipCik
Yi=β0+β1Xi1+...+βpXip+εi
Em R
você pode ajustar este modelo com o lm()
comando e extrair a probabilidade de log com o logLik
comando. Chame essa probabilidade de log . Em seguida, você pode ajustar o modelo ao preditor categórico:L0
Yi=β0+β1Xi1+...+βpXip+∑j=1k−1αjBj+εi
onde é uma variável dummy que é 1 se D i = j e 0 caso contrário. O nível k 'é o nível de referência, e é por isso que existem apenas termos k - 1 na soma. fará automaticamente essa codificação fictícia para você se você passar a variável categórica para . Você pode ajustar esse modelo da mesma forma e extrair a probabilidade do log como acima. Chame essa probabilidade de log L 1 . Em seguida, sob a hipótese nula de que D i tem nenhum efeito,Bj1Di=j0kk−1R
lm()
L1Di
λ=2(L1−L0)
tem uma distribuição com k - 1 graus de liberdade. Assim, você pode calcular o p -valor usando no para teste de significância.χ2k−1p1-pchisq(2*(L1-L0),df=k-1)
R
(2) Teste- :F Sem entrar em detalhes (que são semelhantes ao LRT, exceto que somas de quadrados são usadas em vez de probabilidade de log), explicarei como fazer isso R
. Se você ajustar o modelo "completo" (ou seja, o modelo com todos os preditores, incluindo o preditivo categórico) ao R
usar o lm()
comando (chame isso g1
) e o modelo sem o preditor categórico (chame isso g0
), anova(g1,g0)
testará esta hipótese para você também.
F
x3
para gerar osy
s; portanto, ele deve ser incluído no modelo e o valor- concorda com essa conclusão.