Estou tentando encontrar uma fórmula, método ou modelo a ser usado para analisar a probabilidade de um evento específico influenciar alguns dados longitudinais. Estou tendo dificuldade em descobrir o que procurar no Google.
Aqui está um exemplo de cenário:
Imagem de sua empresa com uma média de 100 clientes diretos todos os dias. Um dia, você decide aumentar o número de clientes que chegam à sua loja todos os dias, e faz uma loucura fora da loja para chamar a atenção. Na próxima semana, você verá em média 125 clientes por dia.
Nos próximos meses, você decide novamente que deseja obter mais negócios e, talvez, sustentá-lo um pouco mais; tente outras coisas aleatórias para atrair mais clientes para sua loja. Infelizmente, você não é o melhor profissional de marketing, e algumas de suas táticas têm pouco ou nenhum efeito e outras têm até um impacto negativo.
Que metodologia eu poderia usar para determinar a probabilidade de qualquer evento individual impactar positiva ou negativamente o número de clientes que entram? Estou plenamente ciente de que a correlação não é necessariamente igual à causalidade, mas que métodos eu poderia usar para determinar o provável aumento ou diminuição na caminhada diária da sua empresa na jornada do cliente após um evento específico?
Não estou interessado em analisar se existe ou não uma correlação entre suas tentativas de aumentar o número de clientes diretos, mas se algum evento único, independente de todos os outros, teve impacto.
Percebo que este exemplo é bastante artificial e simplista, então também darei uma breve descrição dos dados reais que estou usando:
Estou tentando determinar o impacto de uma agência de marketing específica no site de seus clientes quando elas publicam novos conteúdos, realizam campanhas de mídia social etc. Para qualquer agência específica, elas podem ter de 1 a 500 clientes. Cada cliente possui sites com tamanho variando de 5 páginas a mais de 1 milhão. Nos últimos cinco anos, cada agência anotou todo o seu trabalho para cada cliente, incluindo o tipo de trabalho realizado, o número de páginas da Web em um site que foram influenciadas, o número de horas gastas etc.
Usando os dados acima, reunidos em um data warehouse (colocados em vários esquemas de estrela / floco de neve), preciso determinar a probabilidade de que uma única peça de trabalho (qualquer evento no tempo) tenha impacto sobre o tráfego atingindo uma / todas as páginas influenciadas por um trabalho específico. Criei modelos para 40 tipos diferentes de conteúdo encontrados em um site que descreve o padrão de tráfego típico que uma página com esse tipo de conteúdo pode enfrentar desde a data de lançamento até o presente. Normalizado em relação ao modelo apropriado, preciso determinar o número mais alto e mais baixo de visitantes aumentados ou diminuídos que uma página específica recebeu como resultado de um trabalho específico.
Embora tenha experiência com análise básica de dados (regressão linear e múltipla, correlação, etc.), não sei como abordar a solução desse problema. Enquanto no passado eu tipicamente analisei dados com várias medidas para um determinado eixo (por exemplo, temperatura versus sede versus animal e determinei o impacto na sede que o aumento do clima temperado tem entre os animais), acho que acima, estou tentando analisar o impacto de um único evento em algum momento para um conjunto de dados longitudinal não linear, mas previsível (ou pelo menos passível de modelagem). Estou perplexo :(
Qualquer ajuda, dicas, sugestões, recomendações ou orientações seria extremamente útil e eu ficaria eternamente grato!