Regressão log-linear vs. regressão logística

21

Alguém pode fornecer uma lista clara de diferenças entre regressão log-linear e regressão logística? Entendo que o primeiro é um modelo de regressão linear simples, mas não estou claro quando cada um deve ser usado.

— user38133
fonte

19

O nome é um pouco impróprio. Os modelos log-lineares eram tradicionalmente usados para a análise de dados em formato de tabela de contingência. Enquanto "dados de contagem" não precisam necessariamente seguir uma distribuição de Poisson, o modelo log-linear é na verdade apenas um modelo de regressão de Poisson. Daí o nome "log" (os modelos de regressão de Poisson contêm uma função de link "log").

Uma "variável de resultado transformada em log" em um modelo de regressão linear não é um modelo log-linear (nem uma variável de resultado exponenciada, como sugere "log-linear"). Os modelos log-lineares e as regressões logísticas são exemplos de modelos lineares generalizados , nos quais a relação entre um preditor linear (como log-odds ou log-rates) é linear nas variáveis do modelo. Eles não são "modelos de regressão linear simples" (ou modelos usando o formato usual ). $E[Y|X] = a + bX$

Apesar de tudo isso, é possível obter inferência equivalente nas associações entre variáveis categóricas usando regressão logística e regressão de poisson. É apenas que, no modelo de Poisson, as variáveis de resultado são tratadas como covariáveis. Curiosamente, você pode configurar alguns modelos que emprestam informações entre grupos de maneira muito semelhante a um modelo de chances proporcionais, mas isso não é bem entendido e raramente usado.

Exemplos de obtenção de inferência equivalente em modelos de regressão logística e de poisson usando R ilustrado abaixo:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Interessante, a falta de associação entre e significa o odds ratio é de 1 no modelo de regressão logística e, do mesmo modo, o termo? 0 interacção no modelo loglinear. Dá uma idéia de como medimos a independência condicional nos dados da tabela de contingência. $y$ $x$

— AdamO
fonte

Novamente, isso provavelmente mostra minha inexperiência, mas você poderia fornecer uma definição para tabelas de contingência? Também pode ajudar outras pessoas que se deparam com essa questão.

— user38133

As tabelas de contingência são (geralmente) tabelas bidimensionais que enumeram todas as respostas possíveis de duas variáveis e mostram a frequência das observações nas células. Por exemplo, você pode ter uma tabela de contingência 2 por 2 mostrando o status de fumantes (nunca versus atual) e câncer (pulmão ca versus sem câncer) que você usaria para estimar a associação entre tabagismo e risco de câncer.

— AdamO

15

Acho que não chamaria nenhum deles de "modelo de regressão linear simples". Embora seja possível usar as transformações de log ou de logit como a função de link para vários modelos diferentes, geralmente são entendidos como referência a modelos específicos. Por exemplo, "regressão logística" é entendido como um modelo linear generalizado (GLiM) para situações em que a variável de resposta é distribuída como um binomial . Além disso, "regressão log-linear" é geralmente entendida como um Poisson GLiM aplicado a tabelas de contingência de múltiplas vias. Em outras palavras, além do fato de serem ambos modelos de regressão / GLiMs, não os vejo necessariamente sendo muito semelhantes (existem algumas conexões entre eles, como o @AdamO aponta, mas os usos típicos são bastante distintos). A maior diferença seria que a regressão logística assume que a resposta é distribuída como binomial e a regressão log-linear assume que a resposta é distribuída como Poisson . De fato, a regressão log-linear é bastante diferente da maioria dos modelos de regressão, pois a variável resposta não é realmente uma de suas variáveis (no sentido usual), mas o conjunto de contagens de frequência associadas às combinações de suas variáveis. na tabela de contingência de várias vias.

— - Reinstate Monica
fonte

Obrigado! Acho que minha pergunta natural de acompanhamento, que provavelmente mostra minha falta de experiência, é sobre como determinar qual é a distribuição certa para modelar um determinado problema. Acho que vou precisar ler um pouco mais para ter certeza de que sempre posso escolher corretamente.

— user38133

2

{0, 1}

$\{0,\ 1\}$

0

Para esclarecer, uma regressão logística "binária" tem uma variável dependente com dois resultados. Meu entendimento é que também há a opção de usar uma regressão logística "multinomial" se sua variável dependente de resultado tiver mais de 2 categorias. Veja aqui .

— M. Phipps
fonte