Para o projeto final do curso em Data Science, propusemos o seguinte:
Com o conjunto de dados de avaliações da Amazon , planejamos criar um algoritmo (que é basicamente baseado no PageRank personalizado) que determina uma posição estratégica para a colocação de anúncios na Amazon. Por exemplo, existem milhões de produtos na Amazon. E o conjunto de dados fornece uma idéia de quais produtos estão relacionados, quais produtos foram reunidos, visualizados juntos etc. (podemos construir um gráfico com essas informações também vistas e compradas) Também fornece as análises associadas a cada produto 14 anos. Usando todas essas informações, avaliaremos / classificaremos os produtos na Amazon. Agora, você é um fornecedor da Amazon que deseja melhorar o tráfego para a página de seus produtos. Nosso algoritmo ajuda a identificar posições estratégicas no gráfico onde você pode colocar seu anúncio para obter o tráfego máximo.
Agora, a pergunta do professor é: como você validará seu algoritmo sem usuários reais? Nós dissemos-
Podemos modelar um conjunto fixo de usuários. Alguns usuários seguem
also_bought
ealso_viewed
vinculam ao terceiro salto com mais frequência do que o primeiro ou o quinto salto. O comportamento dos usuários é normalmente distribuído. Alguns outros usuários dificilmente navegam além do primeiro salto. Esse conjunto de comportamento dos usuários é distribuído exponencialmente.
Nosso professor disse: - Qualquer que seja a distribuição que os usuários sigam, eles navegam usando links para produtos similares. Seu algoritmo de classificação também considera a similaridade entre os produtos 2 / w para classificar os produtos. Portanto, usar esse algoritmo de validação é meio cheating
. Vem com algum outro comportamento do usuário, algo mais realista e ortogonal ao algoritmo.
Alguma idéia de como modelar o comportamento dos usuários? Estou feliz em fornecer mais detalhes sobre o algo.