Como modelar o comportamento de compra do usuário na Amazon?

9

Para o projeto final do curso em Data Science, propusemos o seguinte:

Com o conjunto de dados de avaliações da Amazon , planejamos criar um algoritmo (que é basicamente baseado no PageRank personalizado) que determina uma posição estratégica para a colocação de anúncios na Amazon. Por exemplo, existem milhões de produtos na Amazon. E o conjunto de dados fornece uma idéia de quais produtos estão relacionados, quais produtos foram reunidos, visualizados juntos etc. (podemos construir um gráfico com essas informações também vistas e compradas) Também fornece as análises associadas a cada produto 14 anos. Usando todas essas informações, avaliaremos / classificaremos os produtos na Amazon. Agora, você é um fornecedor da Amazon que deseja melhorar o tráfego para a página de seus produtos. Nosso algoritmo ajuda a identificar posições estratégicas no gráfico onde você pode colocar seu anúncio para obter o tráfego máximo.

Agora, a pergunta do professor é: como você validará seu algoritmo sem usuários reais? Nós dissemos-

Podemos modelar um conjunto fixo de usuários. Alguns usuários seguem also_boughte also_viewedvinculam ao terceiro salto com mais frequência do que o primeiro ou o quinto salto. O comportamento dos usuários é normalmente distribuído. Alguns outros usuários dificilmente navegam além do primeiro salto. Esse conjunto de comportamento dos usuários é distribuído exponencialmente.

Nosso professor disse: - Qualquer que seja a distribuição que os usuários sigam, eles navegam usando links para produtos similares. Seu algoritmo de classificação também considera a similaridade entre os produtos 2 / w para classificar os produtos. Portanto, usar esse algoritmo de validação é meio cheating. Vem com algum outro comportamento do usuário, algo mais realista e ortogonal ao algoritmo.

Alguma idéia de como modelar o comportamento dos usuários? Estou feliz em fornecer mais detalhes sobre o algo.

— Pavan Manjunath
fonte

1

Como você validará seu algoritmo?

Em vez de tentar responder à segunda pergunta, considere que sua resposta à primeira pergunta pode precisar de revisão ...

Quais métodos você usou para validar métodos de aprendizagem em toda a sua aula de ciência de dados? Primeiro, você deseja definir um conjunto específico de métricas numéricas para avaliar o sucesso ou falha do seu modelo. Segundo, que métodos você pode usar para criar uma população de testes muito realista (mais realista do que modelar a população)? A primeira dica que darei é que o conjunto de dados de avaliações da Amazon é muito grande, portanto seus dados são muito alteráveis para esse método. A segunda dica que darei é que esse método provavelmente é o que você usou em 95% dos problemas de aprendizado supervisionado nos quais trabalhou em sala de aula ...

Espero que isso ajude ... Vou editar isso, se necessário, com base nos comentários adicionados pelo OP, mas não quero fornecer a solução imediatamente, a fim de obter algum pensamento orgânico, por exemplo, já que este é um problema de classe e o Prof é também tentando ajudá-lo a encontrar a solução certa por conta própria.

— AN6U5
fonte

0

Existem dois requisitos para o modelo de comportamento que você deve usar: (1) "mais realista" e (2) ortogonal ao seu algoritmo.

(1) Por realista, vamos supor que isso signifique que o comportamento deve refletir comportamentos observados em outros contextos mais amplos do que o contexto específico das compras na Amazon.

(2) Ortogonal é mais simples de entender. O comportamento modelado não deve ser conduzido por semelhanças entre produtos.

Uma abordagem simples para atender a esses dois requisitos viria do fato de que os comportamentos de compra são conduzidos por características sociodemográficas, como sexo, idade, localização (por exemplo, área urbana / rural) e restrições econômicas (renda e preço).

Você tem um conjunto de usuários e um conjunto de produtos. Você pode estimar a relação entre as variáveis sociodemográficas e a demanda por produto usando técnicas de regressão simples, mas cuidadosas. Se necessário, você pode usar fontes externas de dados para fazer suposições sobre variáveis ausentes importantes, como renda.

Então, se você é um fornecedor, o modelo sociodemográfico preveria quais grupos têm maior probabilidade de comprar seu produto.

Espero que ajude :)

Ben

— Benjamin Tannenbaum
fonte