Medida de elevação na mineração de dados


36

Pesquisei muitos sites para saber exatamente o que o elevador fará? Os resultados que encontrei foram sobre o uso em aplicativos e não em si.

Eu sei sobre a função de suporte e confiança. Na Wikipedia, na mineração de dados, o lift é uma medida do desempenho de um modelo na previsão ou classificação de casos, com base em um modelo de escolha aleatória. Mas como? Confiança * suporte é o valor do levantamento Pesquisei outras fórmulas também, mas não consigo entender por que os gráficos de levantamento são importantes na precisão dos valores previstos. Quero dizer, quero saber qual política e motivo estão por trás do levantamento?


2
Precisa de contexto aqui. No marketing, esse seria um gráfico que indicaria o aumento percentual de vendas esperado de várias atividades de marketing, mas você provavelmente tem um contexto diferente em mente.
zbicyclist

Respostas:


59

Vou dar um exemplo de como "elevador" é útil ...

Imagine que você está executando uma campanha de mala direta na qual envia uma oferta aos clientes na esperança de que eles respondam. Dados históricos mostram que, quando você envia sua base de clientes completamente aleatoriamente, cerca de 8% deles respondem à correspondência (ou seja, eles entram e compram a oferta). Portanto, se você enviar 1.000 clientes, poderá esperar 80 respondedores.

Agora, você decide ajustar um modelo de regressão logística aos seus dados históricos para encontrar padrões que preveem se um cliente provavelmente responderá a uma correspondência. Usando o modelo de regressão logística, a cada cliente é atribuída uma probabilidade de resposta e você pode avaliar a precisão porque sabe se eles realmente responderam. Depois de atribuir a probabilidade a cada cliente, você o classifica do mais alto para o mais baixo. Então você pode gerar alguns gráficos de "elevação" como estes:

insira a descrição da imagem aqui

Ignore o gráfico superior por enquanto. O gráfico inferior está dizendo que, depois de classificarmos os clientes com base na probabilidade de resposta (alta para baixa) e, em seguida, dividimos em dez posições iguais, a taxa de resposta na posição 1 (os 10% melhores clientes) é 29 % vs 8% de clientes aleatórios, para um aumento de 29/8 = 3,63. No momento em que conseguimos pontuar clientes na quarta posição, capturamos tantos nos três anteriores que a taxa de resposta é menor do que o esperado em enviar aleatoriamente as pessoas.

Olhando para o gráfico superior agora, o que isso diz é que, se usarmos as pontuações de probabilidade em clientes, podemos obter 60% do total de respondedores, receberíamos correspondências aleatoriamente, enviando apenas os 30% principais clientes pontuados. Ou seja, usando o modelo, podemos obter 60% do lucro esperado por 30% do custo de correio de apenas enviar o top 30% dos clientes marcados, e é isso que levantar realmente se refere.


Boa explicação, muito obrigado. Você poderia me dizer no gráfico do elevador por que precisamos de amostra aleatória? Eu entendi que 8% é aleatório, mas por que é necessário rastrear aleatoriamente? Vi outro gráfico que traça a média de valores e eu não sei a razão da existência da média quer
Nickool

o que eu consegui é que o aumento = 3,63 esteja dizendo que até a coluna 4 temos taxas de resposta melhores que 8%, então você assume a coluna 1 e, considerando 29% (30% na estimativa), considera a coluna 1 então o que o elevador fez com 3,63?
Nickool 17/10

1
Oh meu Deus! Entendi o meu erro: os 30% não se relacionam com os 29% os 30% significa 3/10 3 primeiras colunas de dados! Agora eu entendi completamente: estou tão feliz !!!!! obrigado>: D <
Nickool 17/10

1
1000mumaEueuEungumaeueu1000cvocêstomersumandWeexpect8300)thenWeexpecttoget601000-get-80-cvocêstomersvsSpend-

1
@ user1700890 O gráfico superior geralmente é rotulado como gráfico de ganho cumulativo, enquanto o gráfico inferior não é o mesmo que um gráfico de elevação cumulativo (onde o aumento nunca pode ser menor que 1), mas divide os dados em dez posições separadas.
robertf

3

Os gráficos de elevação representam a razão entre a resposta de um modelo e a ausência desse modelo. Normalmente, é representado pela porcentagem de casos no X e pelo número de vezes que a resposta é melhor no eixo Y. Por exemplo, um modelo com elevação = 2 no ponto 10% significa:

  • Sem que um modelo atinja 10% da população (sem ordem porque não existe modelo), a proporção de y = 1 seria 10% da população total com y = 1.

  • Com o modelo, obtemos 2 vezes essa proporção, ou seja, esperamos obter 20% da população total com y = 1. No rótulo de caractere X, representa os dados ordenados pela previsão. Os primeiros 10% são os 10% melhores previsões


3

A elevação nada mais é do que a proporção de Confiança para Confiança Esperada. Na área de regras de associação - "Uma taxa de elevação maior que 1,0 implica que a relação entre o antecedente e o consequente é mais significativa do que seria esperado se os dois conjuntos fossem independentes. Quanto maior a taxa de elevação, mais significativa será a associação. " Por exemplo-

se um banco de dados de supermercado tiver 100.000 transações no ponto de venda, das quais 2.000 incluem os itens A e B, e 800 delas incluem o item C, a regra de associação "Se A e B forem comprados, C será comprado na mesma viagem ", oferece suporte a 800 transações (alternativamente, 0,8% = 800 / 100.000) e confiança de 40% (= 800 / 2.000). Uma maneira de pensar no suporte é que é a probabilidade de uma transação selecionada aleatoriamente do banco de dados conter todos os itens no antecedente e o conseqüente, enquanto a confiança é a probabilidade condicional de que uma transação selecionada aleatoriamente inclua todos os itens no consequente, considerando que a transação inclui todos os itens no antecedente.

Usando o exemplo acima, confiança esperada, nesse caso, significa "confiança, se a compra de A e B não aumenta a probabilidade de compra de C." É o número de transações que inclui o consequente dividido pelo número total de transações. Suponha que o número total de transações para C seja 5.000. Assim, a confiança esperada é de 5.000 / 1.00.000 = 5%. Para o exemplo do supermercado, o aumento = confiança / confiança esperada = 40% / 5% = 8. Portanto, o aumento é um valor que nos fornece informações sobre o aumento da probabilidade do então (conseqüente) dado a parte se (antecedente). aqui está o link para o artigo fonte


2

A elevação é apenas uma medida para medir a importância da regra

é uma medida para verificar se esta regra está na lista por acaso ou se estamos esperando

Aumento = Confiança / Confiança Esperada


0

Digamos que estamos usando o exemplo de uma mercearia que está testando a validade de uma regra de associação com antecedente e conseqüente (por exemplo: "Se um cliente compra pão, ele também compra manteiga").

Se você examinar todas as transações e examinar uma aleatoriamente, a probabilidade de que essa transação contenha o conseqüente é "Confiança esperada". Se você examinar todas as transações que contêm o antecedente e selecionar uma transação aleatória entre elas, a probabilidade de que essa transação contenha o conseqüente será "Confiança". "Lift" é essencialmente a diferença entre esses dois. Com o aumento, podemos examinar a relação entre dois itens que têm alta confiança (se a confiança é baixa, o aumento é essencialmente irrelevante).

Se eles têm alta confiança e baixa elevação, ainda sabemos que os itens são frequentemente comprados juntos, mas não sabemos se o conseqüente está acontecendo porque do antecedente ou se é apenas uma coincidência (talvez ambos sejam comprados juntos frequentemente porque são produtos muito populares, mas não têm nenhum tipo de relacionamento).

No entanto, se a confiança e a elevação são altas, podemos razoavelmente assumir que o conseqüente está acontecendo devido ao antecedente. Quanto maior o aumento, menor a probabilidade de que o relacionamento entre os dois itens seja apenas uma coincidência. Em termos matemáticos:

Aumento = Confiança / Confiança Esperada

Em nosso exemplo, se a confiança de nossa regra era alta e o aumento era baixo, isso significaria que muitos clientes estão comprando pão e manteiga, mas não sabemos se é devido a algum relacionamento especial entre pão e manteiga ou se pão e manteiga são apenas itens populares individualmente e o fato de que eles geralmente aparecem juntos em carrinhos de supermercado é apenas uma coincidência. Se a confiança em nossa regra é alta e o aumento é alto, isso indica uma correlação bastante forte entre o antecedente e o consequente, o que significa que podemos razoavelmente assumir que os clientes estão comprando manteiga por causa do fato de estarem comprando pão. Quanto maior a elevação, mais confiantes podemos estar nessa associação.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.