É racional (teórico, substancial, estatístico) optar por modelos de aprendizado de máquina ou de risco ao modelar a rotatividade de clientes (ou mais gerais, ocorrências de eventos)?
É racional (teórico, substancial, estatístico) optar por modelos de aprendizado de máquina ou de risco ao modelar a rotatividade de clientes (ou mais gerais, ocorrências de eventos)?
Respostas:
Eu acho que sua pergunta poderia ser mais definida. A primeira distinção para modelos de rotatividade é entre criar
(1) um modelo binário (ou multi-classe, se houver vários tipos de rotatividade) para estimar a probabilidade de um cliente agitar dentro ou em um determinado ponto futuro (por exemplo, nos próximos 3 meses)
(2) um modelo de sobrevivência que cria uma estimativa do risco de atrito a cada período (digamos, a cada mês para o próximo ano)
Qual dos dois está correto para sua situação depende do uso do modelo. Se você realmente deseja entender o risco de atrito ao longo do tempo e talvez entender como as variáveis (possivelmente variáveis no tempo) interagem com o tempo, um modelo de sobrevivência é apropriado. Para muitos modelos de clientes, eu prefiro usar modelos discretos de risco de tempo para esse fim, porque o tempo geralmente é discreto nos bancos de dados e a estimativa de risco é uma probabilidade do evento. A regressão de Cox é outra opção popular, mas o tempo é tratado como contínuo (ou através de ajuste para empates), mas tecnicamente o risco não é uma probabilidade.
Para a maioria dos modelos de rotatividade, onde uma empresa está interessada em atingir aqueles x% de clientes em maior risco e o banco de dados é pontuado sempre que uma campanha de segmentação é iniciada, a opção binária (ou multi-classe) é normalmente o que é necessário.
A segunda opção é como estimar os modelos. Você usa um modelo estatístico tradicional, como regressão logística para o modelo binário (multi-classe) ou um algoritmo de aprendizado de máquina (por exemplo, floresta aleatória). A escolha é baseada em qual fornece o modelo mais preciso e em que nível de interpretabilidade é necessário. Para modelos discretos de risco de tempo, uma regressão logística é normalmente usada com splines para introduzir efeitos não lineares do tempo. Isso também pode ser feito com redes neurais e muitos outros tipos de algoritmos de ML, pois a configuração é simplesmente aprendizado supervisionado com um conjunto de dados "período de pessoa". Além disso, a regressão cox pode ser ajustada a algoritmos tradicionais como SAS proc phreg ou R coxph (). O algoritmo de aprendizado de máquina GBM também se encaixa na regressão cox com uma função de perda selecionada. Como já foi mencionado,
Antes de tudo, eu esclareceria exatamente onde você faz a distinção entre aprendizado de máquina e modelos de risco. Pelo meu entendimento, a literatura sobre ml faz distinção entre modelos paramétricos e não paramétricos (entre outros).
E segundo, para que você precisa do modelo? É para pesquisa científica ou algo mais? De qualquer forma, a escolha do modelo apropriado para descrever seus dados depende, em primeiro lugar, do que você precisa.
Para sua pergunta: depende de quanto você sabe sobre o processo de geração de dados.
Se, por exemplo, você usa o famoso coin flip ou die roll, você tem uma idéia muito boa sobre o processo que gera o resultado esperado de um experimento.
Nesse caso, você realmente deseja usar uma estimativa paramétrica (bayesiana ou freqüentista) porque eles fornecerão uma estimativa muito boa do parâmetro desconhecido. Além disso, esses modelos são muito bem compreendidos, o que tem muitas vantagens.
Se você não conhece o processo de geração de dados, ou não tem certeza, não terá muita escolha, precisará estimar os parâmetros que descrevem os dados a partir dos próprios dados. Se você decidir por essa abordagem, deverá aceitar que esses modelos tenham desvantagens (dependendo do modelo específico etc.)
Pelo meu entendimento, quanto menos você souber sobre um processo, mais precisará estimar a partir dos dados em si, que certamente terão um preço.