Digamos que recebemos o seguinte problema:
Preveja quais clientes têm mais probabilidade de parar de comprar em nossa loja nos próximos três meses.
Para cada cliente, sabemos o mês em que um começou a comprar em nossa loja e, além disso, temos muitos recursos comportamentais em agregados mensais. O cliente 'mais velho' está comprando há cinquenta meses; vamos denotar o tempo desde que um cliente começou a comprar por ( ). Pode-se supor que o número de clientes seja muito grande. Se um cliente parar de comprar por três meses e depois voltar, ele será tratado como um novo cliente para que um evento (parar de comprar) possa ocorrer apenas uma vez.
Duas soluções me vêm à mente:
Regressão logística - para cada cliente e cada mês (talvez, exceto os três meses mais recentes), podemos dizer se um cliente parou de comprar ou não, para que possamos fazer amostras contínuas com uma observação por cliente e mês. Podemos usar o número de meses desde o início como uma variável categórica para obter algum equivalente da função de risco básico.
Modelo Cox estendido - Esse problema também pode ser modelado usando o modelo Cox estendido. Parece que esse problema é mais adequado à análise de sobrevivência.
Pergunta: Quais são as vantagens da análise de sobrevivência em problemas semelhantes? A análise de sobrevivência foi inventada por algum motivo, portanto deve haver alguma vantagem séria.
Meu conhecimento em análise de sobrevivência não é muito profundo e acho que as vantagens em potencial do modelo de Cox também podem ser alcançadas usando regressão logística.
- O equivalente do modelo estratificado de Cox pode ser obtido usando uma interação de e a variável estratificante.
- O modelo de interação de Cox pode ser obtido mergulhando a população em várias subpopulações e estimando a RL para cada subpopulação.
A única vantagem que vejo é que o modelo de Cox é mais flexível; por exemplo, podemos calcular facilmente a probabilidade de um cliente parar de comprar em 6 meses.