Estou tentando ajustar um modelo log-linear a um grande número de variáveis dos dados da pesquisa. Existem alguns motivos pelos quais pode ser preferível ajustar as regressões logísticas a esses dados. Várias autoridades sugerem que estes são equivalentes. No entanto, tenho alguns motivos para duvidar disso.
- Os modelos log-linear tratam todas as variáveis de forma equivalente, enquanto a regressão logística requer que uma variável seja identificada como variável de resposta.
No contexto dos mínimos quadrados, não é geralmente o caso de Y = a + bX + ε versus X = c + dY + ε o parâmetro d é aproximadamente igual a 1 / b. Isso ocorre porque a primeira equação minimiza o erro vertical, enquanto a segunda minimiza o erro horizontal. Eles serão iguais apenas se os erros forem simétricos em torno da linha estimada. Por isso, estou preocupado que isso também possa ser verdade na regressão logística. (2) é na verdade apenas uma forma específica de (1), ou seja, uma possível assimetria no formato de regressão a partir da escolha de uma variável específica como resposta.
Se todas as variáveis no modelo log-linear estão envolvidas em um ou mais termos de interação, não vejo como uma regressão logística pode ser equivalente. Como alguém expressaria as interações nas quais a variável resposta está envolvida no contexto de uma regressão logística?
Em resposta a Bill Huber, estou usando o termo modelo log-linear em um sentido consideravelmente mais restrito do que a Wikipedia. Refiro-me a modelos de dados de contagem categórica ou ordinal, organizados em tabelas, em que os coeficientes são a contagem total de tabelas, as contagens marginais de cada fator dividido pela contagem total de tabelas (servindo como proxies para probabilidades) e vários termos de interação. Este é o sentido usado em Agresti, “Análise de Dados Categorizados”, entre outros.