Estou tentando realizar uma análise discreta de sobrevivência no tempo usando um modelo de regressão logística, e não tenho certeza se entendi completamente o processo. Eu gostaria muito de receber ajuda com algumas perguntas básicas.
Aqui está a configuração:
Estou analisando a participação em um grupo dentro de uma janela de cinco anos. Cada membro tem um registro mensal de associação para cada mês em que está no grupo. Estou considerando todos os membros cuja associação começou durante a janela de cinco anos (para evitar problemas de "censura à esquerda" com membros que ingressaram anteriormente). Cada registro será indexado por hora, sendo a hora um o mês em que o membro ingressou. Portanto, um membro que permanecer por dois anos e meio terá trinta registros mensais, numerados de um a trinta. Cada registro também receberá uma variável binária, que terá um valor de um para o último mês de associação e zero caso contrário; um valor de um para a variável binária marca o evento em que o membro saiu do grupo. Para cada membro cuja associação continua além da janela de análise de cinco anos,
Portanto, o modelo de regressão logística é construído para prever os valores da variável de evento binário. Por enquanto, tudo bem. Uma das maneiras típicas de avaliar um modelo preditivo binário é medir o aumento em uma amostra de validação. Para o modelo de regressão logística que criei para prever o evento de término da associação, calculei o aumento em um conjunto de dados de validação com uma proporção de cinco para um de não eventos para eventos. Eu classifiquei os valores previstos em decis. O decil com os valores preditos mais altos contém setenta por cento, um aumento de mais de quatro. Os dois primeiros deciles combinados contêm sessenta e cinco por cento de todos os do restante. Em certos contextos, isso seria considerado um modelo preditivo bastante decente, mas me pergunto se é bom o suficiente para realizar uma análise de sobrevivência.
Seja a função de risco para o indivíduo no mês , e seja a probabilidade de que o indivíduo sobreviva até o mês .
Aqui estão minhas perguntas fundamentais:
A função de risco discreto, , é a probabilidade condicional de não sobrevivência (deixando o grupo) em cada mês?
Os valores previstos das estimativas do modelo de regressão logística da função de risco? (ou seja, igual ao valor previsto do modelo para o indivíduo no mês , ou é necessário fazer algo mais para obter estimativas da função de risco?)
A probabilidade de sobrevivência até o mês q para o indivíduo igual ao produto de um menos a função de risco do mês um até o , ou seja, ?q S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] )
O valor médio de em todos os indivíduos para cada tempo uma estimativa razoável da probabilidade média de sobrevivência da população geral?
Um gráfico da população em geral deve significar probabilidade de sobrevivência por mês, semelhante ao gráfico mensal de Kaplan-Meier?
Se a resposta para qualquer uma dessas perguntas for negativa, tenho um sério mal-entendido e poderia realmente usar alguma assistência / explicação. Além disso, existe alguma regra prática sobre o quão bom o modelo preditivo binário precisa ser para produzir um perfil de sobrevivência preciso?