É possível entender o modelo de pareto / nbd conceitualmente?


12

Estou aprendendo a usar o pacote BTYD que usa o modelo Pareto / NBD para prever quando será esperado que um cliente volte. No entanto, toda a literatura sobre este modelo é cheia de matemática e não parece haver uma explicação simples / conceitual do funcionamento desse modelo. É possível entender o modelo de Pareto / NBD para não-matemáticos? Eu passei por este famoso artigo de Fader . O modelo Pareto / NBD faz as seguintes suposições:

Eu. Enquanto ativo, o número de transações feitas por um cliente em um período de tempo t é distribuído Poisson com a taxa de transação λ.

ii. A heterogeneidade nas taxas de transação entre os clientes segue uma distribuição gama com o parâmetro de forma re parâmetro de escala α.

iii. Cada cliente tem uma "vida útil" não observada de comprimento τ. Este ponto no qual o cliente se torna inativo é distribuído exponencialmente com a taxa de desistência µ.

iv) A heterogeneidade nas taxas de evasão entre os clientes segue uma distribuição gama com os parâmetros de forma e parâmetro de escala β.

v. A taxa de transação λ e a taxa de desistência µ variam independentemente entre os clientes. "

Não compreendo a (intuição por trás) lógica das suposições (ii), (iii) e (iv). Por que apenas essas distribuições, por que não outras?

Também as premissas do modelo BG / NBD são:

i.) Enquanto ativo, o número de transações realizadas por um cliente segue um processo de Poisson com taxa de transação λ. Isso equivale a supor que o tempo entre transações seja distribuído exponencialmente com a taxa de transação λ

ii) A heterogeneidade em λ segue uma distribuição gama

iii) Após qualquer transação, um cliente se torna inativo com probabilidade p. Portanto, o ponto em que o cliente "desistiu" é distribuído pelas transações de acordo com uma distribuição geométrica (deslocada) com pmf

iv) A heterogeneidade em p segue uma distribuição beta

A racionalidade (intuitiva) das suposições (ii), (iii) e (iv) também não é de todo óbvia.

Serei grato por qualquer ajuda. Obrigado.


Você poderia adicionar alguma referência à literatura que acha difícil?
Kjetil b halvorsen

Eu elaborei onde as coisas não estão claras. Sei que não é fácil trazer intuição para jogar, mas se fosse possível, será de grande ajuda. Obrigado.
user3282777

Respostas:


14

Imagine que você é o gerente recém-nomeado de uma loja de flores. Você tem um registro dos clientes do ano passado - a frequência com que compram e há quanto tempo desde a última visita. Você quer saber quantos negócios os clientes listados provavelmente trarão neste ano. Há algumas coisas a considerar:

[suposição (ii)] Os clientes têm hábitos de compra diferentes.

Algumas pessoas gostam de ter flores frescas o tempo todo, enquanto outras apenas por elas em ocasiões especiais. Faz mais sentido ter uma distribuição para a taxa de transaçãoλ, em vez de assumir que um único λ explica o comportamento de todos.

A distribuição precisa ter poucos parâmetros (você não necessariamente possui muitos dados), ser bastante flexível (você presumivelmente não é um guru empreendedor de leitura da mente e não sabe tudo sobre os hábitos de compra) e tomar valores nos números reais positivos. A distribuição Gamma marca todas essas caixas e é bem estudada e relativamente fácil de trabalhar. É frequentemente usado como prioritário para parâmetros positivos em diferentes configurações.

[suposição (iii)] Você já deve ter perdido alguns dos clientes da lista.

Se Andrea comprou flores cerca de uma vez por mês todos os meses no ano passado, é uma aposta bastante segura que ela retornará este ano. Se Ben costumava comprar flores semanalmente, mas ele não estava lá há meses, então talvez ele tenha encontrado uma loja de flores diferente. Ao fazer planos de negócios futuros, convém contar com Andrea, mas não com Ben.

Os clientes não informam quando seguiram em frente, e é aí que a suposição de "vida útil não observada" entra em ação para ambos os modelos. Imagine um terceiro cliente, Cary. Os modelos Pareto / NBD e BG / NBD oferecem duas maneiras diferentes de pensar em Cary saindo da loja para sempre.

Para o caso Pareto / NBD, imagine que, a qualquer momento, haja uma pequena chance de Cary encontrar uma loja melhor do que a sua. Esse risco infinitesimal constante fornece a vida exponencial - e quanto mais tempo se passa desde a última visita de Cary, mais ele fica exposto a outras (potencialmente melhores) floriculturas.

O caso BG / NBD é um pouco mais artificial. Toda vez que Cary chega à sua loja, ele se compromete a comprar algumas flores. Enquanto estiver navegando, ele considerará as mudanças de preço, qualidade e variedade desde sua última visita, e isso o fará decidir se quer voltar na próxima vez ou procurar outra loja. Então, ao invés de estar constantemente em risco, Cary tem alguma probabilidade de apenas decidir sair após cada compra.

[suposição (iv)] Nem todos os clientes estão igualmente comprometidos com sua loja.

Alguns clientes são regulares e apenas a morte - ou um forte aumento de preço - os forçará a sair. Outros gostariam de explorar e ficariam felizes em deixá-lo pelo bem da nova loja de flores hipster do outro lado da rua. Em vez de uma taxa de desistência única para todos os clientes, faz mais sentido ter uma distribuição de taxas de desistência (ou probabilidades no caso BG / NBD).

Isso funciona da mesma maneira que os hábitos de compra. Estamos buscando uma distribuição flexível e bem estabelecida, com poucos parâmetros. No caso Pareto / NBD, usamos um Gamma, já que a taxaμestá nos números reais positivos. No caso BG / NBD, usamos um Beta, que é o padrão anterior para parâmetros em(0 0;1).

Eu espero que isso ajude. Dê uma olhada no artigo original (Schmittlein et al., 1987), se você ainda não o fez - eles passam por alguma intuição lá.


Obrigado por esse trabalho duro e explicação clara. A razão para usar a distribuição Gamma é que é relativamente fácil de trabalhar e geralmente é usado como prioritário para parâmetros positivos em diferentes configurações. Embora as formas da maioria das distribuições gama (com diferentes valores de parâmetros) sejam fáceis de entender, mas ajustam 'Heterogeneidade nas taxas de transação entre clientes' a uma distribuição gama que quase cai exponencialmente (para k = 1, theta = 2, como no gráfico da Wikipedia [ aqui] en.wikipedia.org/wiki/Gamma_distribution ) é um pouco difícil de entender. Excluímos esse comportamento?
usar o seguinte comando

1
Suas estimativas para os parâmetros Gamma dependerão dos dados com os quais você está trabalhando. O ponto principal é que a distribuição Gamma pode ter formas significativamente diferentes com base em apenas dois parâmetros, e você pode deixar os dados falarem por si, sem impor suposições excessivamente rigorosas (mais ou menos).
Liúba B.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.