Por que incluir o termo de interação no modelo de regressão logística ajuda a avaliar a suposição de linearidade?

Em Descobrindo estatísticas usando o SPSS 4ª edição, por Andy Field, foi recomendável incluir o termo de interação entre a variável independente e sua variável de transformação de logaritmo natural correspondente para verificar a violação da suposição de linearidade. Qual é a teoria estatística por trás disso? $x$ $\ln(x)$

Esta é uma citação do livro:

Essa suposição pode ser testada observando se o termo de interação entre o preditor e sua transformação logarítmica é significativo (Hosmer & Lemeshow, 1989).

Também descobri recentemente que essa transformação é chamada transformação Box-Tidwell.

regression logistic assumptions

— tatami
fonte

Lembro-me desse livro dando conselhos duvidosos de outra pergunta aqui: stats.stackexchange.com/questions/157217/…. Isso inclui x ln (x) também me parece duvidoso.

— Matthew Drury

tatami Pode muito bem haver uma boa razão para isso, mas o contexto provavelmente ajudará a localizá-lo mais rapidamente. Que base Field usou para sugerir que era uma boa ideia? Ele ofereceu alguma referência? Você pode citar o que o livro diz?

— Glen_b -Reinstala Monica

Uma maneira melhor (com dados suficientes) pode ser usar um GAM logístico (modelo aditivo generalizado) e incluir um ajuste de spline de x.

— Kjetil b halvorsen

@Glen_b Eu adicionei uma citação do livro de Andy Field

— tatami

Novo para mim, mas parece fazer sentido para um tipo específico de não linearidade: stats.uwo.ca/faculty/braun/ss3859/notes/Chapter6/ch5notes.pdf

— Scortchi - Reinstate Monica

Box e Tidwell (1962) [1] apresentaram uma abordagem geral para estimar transformações dos preditores individuais (IVs), e trabalham com o caso específico de estimar transformações de potência das variáveis preditivas (incluindo essa potência 0, que - com escala apropriada - corresponde a receber registros como um caso limitante).

Nesse caso específico de transformações de poder, verifica-se que há uma conexão com a regressão em . $X_j\log(X_j)$

Portanto, se você tiver uma não-linearidade do tipo em que a relação verdadeira (condicional) entre e é linear em , ela poderá ser usada para verificar se há ou para estimar valores . $Y$ $X_j$ $X_j^{\alpha_j}$ $\alpha_j\neq 1$ $\alpha$

Especificamente, ao regressar em e o coeficiente do segundo termo dividido pelo do primeiro é uma estimativa aproximada de . (Essa estimativa pode ser iterada para convergência.) $X_j$ $X_j\log(X_j)$ $\alpha_j-1$

Se esse estimado for próximo de 1, haverá pouca indicação de necessidade de transformação. $\alpha_j$

Observe que, como os dois termos do produto são funções de , este é simplesmente um transformado, de modo que eu não chamaria isso de interação; é apenas um preditor transformado. (De fato, mesmo que eu estivesse de alguma forma tentado a fazê-lo, como não é incluído como um preditor, ainda assim não tenderia a descrever esse segundo termo como uma interação.) $X_j\log(X_j)$ $X_j$ $X_j$ $\log(X_j)$

[1]: Box, GEP e Tidwell, PW (1962), "Transformação das variáveis independentes". Technometrics 4 , 531-550.

— Glen_b -Reinstate Monica
fonte

Talvez isso tenha algum valor limitado, especialmente se alguém tiver motivos para esperar a não linearidade dessa forma específica de poder ou se for forçado a usar software que não oferece alternativas mais modernas, como o uso de um GAM (modelo aditivo generalizado), estimando efetivamente a não linearidade diretamente com splines. Ou, se o número de observações for baixo, para permitir o uso de splines.

— precisa saber é o seguinte