Todo modelo log-linear possui uma regressão logística perfeitamente equivalente?


8

Estou tentando ajustar um modelo log-linear a um grande número de variáveis ​​dos dados da pesquisa. Existem alguns motivos pelos quais pode ser preferível ajustar as regressões logísticas a esses dados. Várias autoridades sugerem que estes são equivalentes. No entanto, tenho alguns motivos para duvidar disso.

  1. Os modelos log-linear tratam todas as variáveis ​​de forma equivalente, enquanto a regressão logística requer que uma variável seja identificada como variável de resposta.
  2. No contexto dos mínimos quadrados, não é geralmente o caso de Y = a + bX + ε versus X = c + dY + ε o parâmetro d é aproximadamente igual a 1 / b. Isso ocorre porque a primeira equação minimiza o erro vertical, enquanto a segunda minimiza o erro horizontal. Eles serão iguais apenas se os erros forem simétricos em torno da linha estimada. Por isso, estou preocupado que isso também possa ser verdade na regressão logística. (2) é na verdade apenas uma forma específica de (1), ou seja, uma possível assimetria no formato de regressão a partir da escolha de uma variável específica como resposta.

  3. Se todas as variáveis ​​no modelo log-linear estão envolvidas em um ou mais termos de interação, não vejo como uma regressão logística pode ser equivalente. Como alguém expressaria as interações nas quais a variável resposta está envolvida no contexto de uma regressão logística?

Em resposta a Bill Huber, estou usando o termo modelo log-linear em um sentido consideravelmente mais restrito do que a Wikipedia. Refiro-me a modelos de dados de contagem categórica ou ordinal, organizados em tabelas, em que os coeficientes são a contagem total de tabelas, as contagens marginais de cada fator dividido pela contagem total de tabelas (servindo como proxies para probabilidades) e vários termos de interação. Este é o sentido usado em Agresti, “Análise de Dados Categorizados”, entre outros.


Meu entendimento do "modelo loglinear" - que está muito bem alinhado com a definição da Wikipedia , embora um pouco mais geral - não me permite entender essa questão. Você poderia nos dizer o que esse termo significa para você?
whuber

2
A Wikipedia chama isso de análise loglinear: en.wikipedia.org/wiki/Loglinear_analysis
Jeremy Miles

1
Existem várias formas de análise loglinear - geral, logit, etc. A análise loglinear é para situações em que você possui variáveis ​​dependentes e alguns preditores. Até onde eu sei, ele fornece o mesmo resultado (estimativas de parâmetros) que a regressão logística nominal.
ttnphns

Respostas:


4

A resposta é não'. O modelo loglinear é mais geral que o modelo de regressão logística. Veja Fienberg, 1980, Análise de dados categóricos cruzados, seção 6.2, sobre como especificar um modelo linear linear para que ele corresponda à regressão logística.

Na verdade, o inverso é verdadeiro: se todas as variáveis ​​forem categóricas, todos os modelos de regressão logística corresponderão a algum modelo loglinear.


Então, era isso que eu pensava, mas não o que eu estava esperando. No R, que é a principal ferramenta que eu uso, existem vários pacotes contribuídos ou rotinas disponíveis para ajustar o design de amostragem de pesquisas complexas para os modelos lm e GLM. Não encontrei nada equivalente para modelos log-lineares.
precisa saber é o seguinte

Não sei se é útil para seus propósitos, mas a função loglm () do MASS pode se encaixar em modelos lineares de log. Além disso, você pode conferir o pacote ACD.
Stef van Buuren

Além disso, com um Poisson GLM, você pode ajustar modelos log-lineares. Veja Agresti: Análise de Dados Categóricos, Seção 8.6.7.
Momo
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.