Em um modelo de Poisson, qual é a diferença entre usar o tempo como covariável ou compensado?


18

Recentemente, descobri como modelar exposições ao longo do tempo usando o log de (por exemplo) tempo como um deslocamento em uma regressão de Poisson.

Entendi que o deslocamento corresponde a ter o tempo como covariável com o coeficiente 1.

Eu gostaria de entender melhor a diferença entre usar o tempo como um deslocamento ou como uma covariável normal (portanto, estimar o coeficiente). Em que situação devo usar um método ou outro?

UPGRADE: Não sei se é interessante, mas executei uma validação dos dois métodos usando dados divididos aleatoriamente repetidos 500 vezes e notei que o uso do método offset leva a um erro de teste maior.

Respostas:


25

Compensações podem ser usadas em qualquer modelo de regressão, mas são muito mais comuns ao trabalhar com dados de contagem para sua variável de resposta. Um deslocamento é apenas uma variável que é forçada a ter um coeficiente de no modelo. (Veja também este excelente tópico do CV: Quando usar um deslocamento em uma regressão de Poisson? ) 1

Quando usado corretamente com dados de contagem, isso permite modelar taxas em vez de contagens . Se isso for interessante, é algo a se fazer. Portanto, esse é o contexto em que as compensações são usadas com mais frequência. Vamos considerar um Poisson GLiM com um link de log (que é o link canônico).

em(λ)=β0 0+β1X(covocênts)em(λtEume)=β0 0+β1X(rumates)em(λ)-em(tEume)=β0 0+β1Xem(λ)=β0 0+β1X+1×em(tEume)(stEueueu rumates)em(λ)=β0 0+β1X+β2×em(tEume)When β21(covocênts umagumaEun)

(Como você pode ver, a chave para usar um deslocamento corretamente é tornar o deslocamento, não t i m e .) em(tEume)tEume

Quando o coeficiente em não é 1 , você não está mais modelando taxas. Porém, como β 2( - , 1 ) ( 1 , ) fornece uma flexibilidade muito maior para ajustar os dados, modelos que não usam ln ( t i m e ) como um deslocamento geralmente se ajustam melhor (embora possam também super ajuste). em(tEume)1β2(-,1)(1,)em(tEume)


Se você deve modelar contagens ou taxas realmente depende de qual é sua pergunta substantiva. Você deve modelar o que corresponde ao que deseja saber.

Quanto ao significado de não ser 1 , considere um exemplo em que o tempo não é a variável em questão. Imagine estudar o número de complicações cirúrgicas em diferentes hospitais. Um hospital tem muito mais complicações cirúrgicas relatadas, mas elas podem alegar que a comparação não é justa porque fazem muito mais cirurgias. Então você decide tentar controlar isso. Você pode simplesmente usar o log do número de cirurgias como um deslocamento, o que permitiria estudar a taxa de complicações por cirurgia. Você também pode usar o log do número de cirurgias como outra covariável. Digamos que o coeficiente seja significativamente diferente de 1 . Se β 2 > 1β211β2>1, os hospitais que realizam mais cirurgias têm uma taxa mais alta de complicações (talvez porque estejam se apressando para fazer mais). Se , os hospitais que mais apresentam menos complicações por cirurgia (talvez eles tenham os melhores médicos e, portanto, mais e melhor). β2<1

Ver como isso poderia acontecer se a variável em questão fosse tempo é um pouco mais complicado. A distribuição de Poisson surge do processo de Poisson , no qual o tempo entre os eventos é distribuído exponencialmente e, portanto, existe uma conexão natural com a análise de sobrevivência. Na análise de sobrevivência, o tempo para os eventos geralmente não é distribuído como exponencial, mas o risco da linha de base pode se tornar maior ou menor ao longo do tempo. Portanto, considere um caso em que você esteja modelando o número de eventos que ocorrem após algum ponto de partida natural. Se , isso significa que a taxa de eventos está aumentando, enquanto se β 2 < 1β2>1β2<1, isso significa que a taxa de eventos está diminuindo.

Para um exemplo concreto do primeiro, imagine uma varredura que conte o número de células cancerígenas um período de tempo após a remoção cirúrgica do tumor inicial. Para alguns pacientes, mais tempo se passou desde a cirurgia e você queria levar isso em conta. Uma vez que um câncer recupere sua posição, começará a crescer exponencialmente, a taxa aumentará ao longo do tempo desde a cirurgia sem tratamento adicional.

Para um exemplo concreto deste último, considere o número de pessoas que morrem de um surto de doença para o qual não temos tratamento. No início, muitas pessoas morrem porque eram mais suscetíveis a essa doença ou já tinham um sistema imunológico comprometido etc. Com o tempo, à medida que a população de pessoas restantes é menos suscetível à doença, a taxa diminui. (Desculpe, este exemplo é tão mórbido.)


Muito obrigado Gung por sua resposta abrangente! Por favor, me diga se eu entendi bem. Se usarmos o tempo como deslocamento, assumimos uma relação positiva linear entre o tempo e os eventos cujo coeficiente angular é dado pelos outros preditores exponenciadosy=tEumeexp(1pβpXp+const). Em vez disso, se usarmos o tempo do log como covariável, estimamos o efeito exponencial do tempo nos eventos, que podem ser positivos ou negativosy=timeβtimeexp(1pβpXp+const). (cont...)
Bakaburg

1
Therefore why one should assume that the relationship between time and events is linear and growing? Wouldn't be better to estimate the shape of such relationship in every case? I have two more questions: 1. what would it mean to use not log transformed time as covariate instead? 2. (maybe I should edit the question or ask a new one for this) I read that poisson models can actually be used with not integer y too. Thus I could write in R: glm(I(y/time) ~ cov.1 + ... + cov.n, poisson) and have the same results that I have using offset(log(time)). I tried this but I get different coefficients.
Bakaburg

O dist de Poisson é apenas para números inteiros; você não deve inserir uma fração no LHS. Não usar a transformação de log significa modelar taxas de eventos por tempo exponencial por unidade, o que provavelmente nunca será sensato no mundo real.
gung - Restabelece Monica

1
@Bababurg, o tempo provavelmente está correlacionado com eles. Isso não é diferente de qualquer outra situação de modelagem de regressão. Não vejo o problema aqui. Você está interessado em modelar taxas médias ou não está.
gung - Restabelece Monica

1
@tatami, if you are going to use time as a covariate (rather than an offset), you don't have to take the log of time. However, if you want to compare your result to an offset, you would need to use the log to make them comparable.
gung - Reinstate Monica

7

Time offsets can usually be viewed as your model estimating the rate an event occurs per unit time, with the offset controlling for how long you observed different subjects.

In poisson models you are always estimating a rate that something happens, but you never get to observe this rate directly. You do get to observe the number of times that an event happens over some amount of time. The offset makes the connection between the two concepts.

For example, you observed subjects shooting baskets for varying amounts of time, and you counted the number of successful baskets for each subject. What you are really interested in in how often each subject sinks a basket, i.e. the number of successful baskets each subject expects to sink each minute, as that is a somewhat objective measure of their skill. The number of baskets you actually observed sunk would then be this estimated rate times how long you observed the subject attempting. So you can think in terms of the units of the response, the number of baskets per minute.

Its difficult to think of a situation where you would use time observed as a covariate in a poisson regression, since by its very nature you are estimating a rate.

Por exemplo, se eu quiser avaliar o efeito de ser americano x europeu (exemplo muito tolo) no número de cestas, adicionar tempo como covariável me permitiria avaliar esse efeito "independentemente" do tempo decorrido nas filmagens, não é isto? Além disso, também me daria uma estimativa do efeito do tempo no resultado.

Aqui está um exemplo que, com sorte, destaca o perigo disso. Suponha que americanos e europeus, na verdade, afundam o mesmo número de cestas a cada minuto. Mas digamos que observamos cada europeu pelo dobro do tempo de cada americano; portanto, em média, observamos o dobro de cestas para cada europeu.

Se configurarmos um modelo que inclui parâmetros para o tempo observado e um indicador "é europeu", os dois modelos explicam os dados:

E(cestas)=2ct+0 0xEropeano
E(cestas)=0 0t+2cxEropeano

(Onde c é uma constante, que é a taxa real em que os dois tipos de jogadores fazem cestas).

Como estatístico, realmente queremos que, nessa situação, nosso modelo nos informe que não há diferença estatística entre a taxa que os europeus fazem cestas e a taxa que os americanos fazem cestas. Mas nosso modelo falhou em fazê-lo, e ficamos confusos.

A questão é que nós sabemos algo que nosso modelo é que não sei. Isto é, nós sabemos que se observar o mesmo indivíduo para o dobro do tempo, que, na expectativa, eles vão fazer o dobro de cestas. Como sabemos disso, precisamos informar o nosso modelo. É isso que a compensação realiza.

Talvez o uso do método offset seja apropriado quando sabemos que os eventos acontecem uniformemente ao longo do tempo!

Sim, mas isso é uma suposição do próprio modelo de poisson . Na página da wikipedia na distribuição de poisson

a distribuição de Poisson, nomeada após o matemático francês Siméon Denis Poisson, é uma distribuição de probabilidade discreta que expressa a probabilidade de um determinado número de eventos ocorrer em um intervalo fixo de tempo e / ou espaço, se esses eventos ocorrerem com uma taxa média conhecida e independentemente de o tempo desde o último evento .


2
Obrigado pela sua resposta. Mas usar o tempo como covariável não me daria a mesma resposta? Por exemplo, se eu quiser avaliar o efeito de ser americano x europeu (exemplo muito tolo) no número de cestas, adicionar tempo como covariável me permitiria avaliar esse efeito "independentemente" do tempo decorrido no disparo, não é isto? Além disso, também me daria uma estimativa do efeito do tempo no resultado. Às vezes, o tempo nem sempre é importante para uma variável de contagem, por exemplo, quando os eventos acontecem todos no início do período de observação.
Bakaburg 03/03

Talvez o uso do método offset seja apropriado quando sabemos que os eventos ocorrem uniformemente ao longo do tempo!
Bakaburg

1
@Bakaburg Adicionei uma tentativa de resposta. Espero que ajude!
Matthew Drury
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.