Compensações podem ser usadas em qualquer modelo de regressão, mas são muito mais comuns ao trabalhar com dados de contagem para sua variável de resposta. Um deslocamento é apenas uma variável que é forçada a ter um coeficiente de no modelo. (Veja também este excelente tópico do CV: Quando usar um deslocamento em uma regressão de Poisson? ) 1
Quando usado corretamente com dados de contagem, isso permite modelar taxas em vez de contagens . Se isso for interessante, é algo a se fazer. Portanto, esse é o contexto em que as compensações são usadas com mais frequência. Vamos considerar um Poisson GLiM com um link de log (que é o link canônico).
em( λ )em( λt i m e)em( λ ) - ln( t i m e )em( λ )em( λ )= β0 0+ β1X= β0 0+ β1X⇒= β0 0+ β1X= β0 0+ β1X+ 1 × ln( t i m e )≠= β0 0+ β1X+ β2× ln( t i m e )w h e n β 2≠ 1( C o u n t s )( r a t e s )( S t i l l r uma t e s )( C o u n t s um g de um i n )
(Como você pode ver, a chave para usar um deslocamento corretamente é tornar o deslocamento, não t i m e .) em( t i m e )t i m e
Quando o coeficiente em não é 1 , você não está mais modelando taxas. Porém, como β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) fornece uma flexibilidade muito maior para ajustar os dados, modelos que não usam ln ( t i m e ) como um deslocamento geralmente se ajustam melhor (embora possam também super ajuste). em( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )em( t i m e )
Se você deve modelar contagens ou taxas realmente depende de qual é sua pergunta substantiva. Você deve modelar o que corresponde ao que deseja saber.
Quanto ao significado de não ser 1 , considere um exemplo em que o tempo não é a variável em questão. Imagine estudar o número de complicações cirúrgicas em diferentes hospitais. Um hospital tem muito mais complicações cirúrgicas relatadas, mas elas podem alegar que a comparação não é justa porque fazem muito mais cirurgias. Então você decide tentar controlar isso. Você pode simplesmente usar o log do número de cirurgias como um deslocamento, o que permitiria estudar a taxa de complicações por cirurgia. Você também pode usar o log do número de cirurgias como outra covariável. Digamos que o coeficiente seja significativamente diferente de 1 . Se β 2 > 1β211β2> 1, os hospitais que realizam mais cirurgias têm uma taxa mais alta de complicações (talvez porque estejam se apressando para fazer mais). Se , os hospitais que mais apresentam menos complicações por cirurgia (talvez eles tenham os melhores médicos e, portanto, mais e melhor). β2< 1
Ver como isso poderia acontecer se a variável em questão fosse tempo é um pouco mais complicado. A distribuição de Poisson surge do processo de Poisson , no qual o tempo entre os eventos é distribuído exponencialmente e, portanto, existe uma conexão natural com a análise de sobrevivência. Na análise de sobrevivência, o tempo para os eventos geralmente não é distribuído como exponencial, mas o risco da linha de base pode se tornar maior ou menor ao longo do tempo. Portanto, considere um caso em que você esteja modelando o número de eventos que ocorrem após algum ponto de partida natural. Se , isso significa que a taxa de eventos está aumentando, enquanto se β 2 < 1β2> 1β2< 1, isso significa que a taxa de eventos está diminuindo.
Para um exemplo concreto do primeiro, imagine uma varredura que conte o número de células cancerígenas um período de tempo após a remoção cirúrgica do tumor inicial. Para alguns pacientes, mais tempo se passou desde a cirurgia e você queria levar isso em conta. Uma vez que um câncer recupere sua posição, começará a crescer exponencialmente, a taxa aumentará ao longo do tempo desde a cirurgia sem tratamento adicional.
Para um exemplo concreto deste último, considere o número de pessoas que morrem de um surto de doença para o qual não temos tratamento. No início, muitas pessoas morrem porque eram mais suscetíveis a essa doença ou já tinham um sistema imunológico comprometido etc. Com o tempo, à medida que a população de pessoas restantes é menos suscetível à doença, a taxa diminui. (Desculpe, este exemplo é tão mórbido.)