Ideias para o modelo de pontuação em potencial

Eu tenho que pensar em um modelo para identificar clientes em potencial (empresas) que têm uma grande chance de serem convertidos em clientes, e estou procurando conselhos sobre que tipo de modelo pode ser útil.

As bases de dados que vai ter são, tanto quanto eu sei (eu não tê-los ainda), o list of current clients(em outras palavras, converted prospects) e suas características ( size, revenue, age, location, coisas assim), e um list of prospects(que tenho de pontuação ) e seus recursos. No entanto, acho que não terei uma lista das empresas que costumavam ser prospects, mas para as quais a conversão em clientes falhou (se eu tivesse, acho que poderia ter optado por uma floresta aleatória. É claro que ainda poderia use uma floresta aleatória, mas acho que seria uma má idéia executar uma floresta aleatória na união dos meus dois bancos de dados e tratar os clientes como convertede os possíveis clientes como non-converted...)

Então, preciso encontrar, na lista de clientes potenciais, aqueles que se parecem com os clientes já existentes. Que tipo de modelo eu posso usar para fazer isso?

(Também estou pensando em coisas como "avaliar o valor dos clientes e aplicar isso a clientes em potencial semelhantes" e "avaliar a chance que cada cliente em potencial tem de fechar o negócio" para refinar ainda mais o valor da minha pontuação, mas está meio fora do escopo da minha pergunta).

obrigado

— François M.
fonte

Enfrentei quase exatamente o mesmo cenário há um ano e meio - basicamente, o que você tem é uma variação do problema de classificação de classe única (OCC), especificamente o aprendizado de PU (aprendendo com dados positivos e não marcados). Você tem seu conjunto de dados positivo ( clientes ) rotulado e conhecido e um conjunto de dados de clientes em potencial sem rótulo ( alguns dos quais são semelhantes ao cliente e outros não ). Sua tarefa é identificar o maior número possível de clientes em potencial e direcioná-los ... isso depende do pressuposto de que os clientes em potencial que mais se parecem com clientes têm mais probabilidade de converter do que os clientes que se parecem menos com clientes .

A abordagem em que decidimos utilizou um procedimento chamado técnica Spy . A idéia básica é que você colete uma amostra da sua classe positiva conhecida e a injete no seu conjunto não marcado. Em seguida, você treina um classificador nesses dados combinados e, em seguida, executa o conjunto não rotulado pelo classificador treinado, atribuindo a cada instância uma probabilidade de ser um membro positivo da classe. A intuição é que os positivos injetados ( os chamados espiões) devem se comportar de maneira semelhante às instâncias positivas (refletidas pelas probabilidades posteriores). Ao definir um limite, isso permite extrair instâncias negativas confiáveis do conjunto não rotulado. Agora, com dados rotulados positivos e negativos, é possível criar um classificador usando qualquer algoritmo de classificação padrão que você escolher. Em essência, com a técnica de espionagem, você faz a inicialização de seus dados para fornecer as instâncias negativas necessárias para o treinamento adequado.

Para iniciantes, você deve examinar o trabalho de Li e Liu, que têm vários artigos explorando o tópico de aprendizado de OCC e PU.

— Brandon Loudermilk
fonte

Resposta incrível, obrigado. (Apenas uma observação: não há algo estranho com a última frase do seu primeiro parágrafo?)

— François M.

obrigado pela edição - também é possível procurar soluções pré-embaladas ... por exemplo, SVM de uma classe, por exemplo, cran.r-project.org/web/packages/e1071/vignettes/svmdoc.pdf

— Brandon Loudermilk