Você está basicamente certo sobre a organização de dados. Se você tem casos organizados assim:
ID M1 M2 M3 EVENT
Você provavelmente desejará reorganizar os dados para que fiquem assim:
ID TIME EVENT
1 1 0
1 2 1
1 3 1
2 1 0
2 2 0
. . .
. . .
Eu chamo isso de conversão de um formato amplo para um formato longo. Isso é feito facilmente em R usando a reshape()
função ou ainda mais facilmente com o reshape2
pacote.
Pessoalmente, eu manteria o ID
campo por seu uso potencial na identificação de uma fonte de variação em um modelo de efeitos mistos. Mas isso não é necessário (como apontado por @BerndWeiss). O seguinte pressupõe que você deseja fazer isso. Caso contrário, ajuste um modelo semelhante glm(...,family=binomial)
sem os termos do efeito aleatório.
O lme4
pacote em R ajustará um modelo de regressão logística de efeitos mistos semelhante ao que você está falando, exceto com um efeito aleatório ou dois para explicar a variabilidade dos coeficientes entre os sujeitos ( ID
). O exemplo a seguir seria um código de exemplo para ajustar um modelo de exemplo se seus dados forem armazenados em um quadro de dados chamado df
.
require(lme4)
ans <- glmer(EVENT ~ TIME + (1+TIME|ID), data=df, family=binomial)
Esse modelo em particular permite que os coeficientes TIME
e os intercept
coeficientes variem aleatoriamente através do ID. Em outras palavras, esse é um modelo linear hierárquico de medidas aninhadas em indivíduos.
Uma forma alternativa de um modelo de histórico de eventos de tempo discreto divide TIME
em manequins discretos e se encaixa em cada um como parâmetro. Este é essencialmente o caso discreto do modelo Cox PH, porque a curva de risco não se restringe a ser linear (ou quadrática, ou, no entanto, você pode imaginar o tempo de transformação). No entanto, você pode agrupar TIME
em um conjunto gerenciável (por exemplo, pequeno) de períodos discretos, se houver muitos deles.
Alternativas adicionais envolvem a transformação do tempo para acertar sua curva de risco. O método anterior basicamente o impede de fazer isso, mas o método anterior é menos parcimonioso do que isso (e o caso linear original que eu coloquei) porque você pode ter muitos pontos no tempo e, portanto, muitos parâmetros incômodos.
Uma excelente referência sobre esse tópico é a Análise Longitudinal de Dados Aplicada de Judith Singer e John Willet : Modelando Mudanças e Ocorrência de Eventos .
self-study
tag.)