Pergunta da entrevista com o cientista de dados: Regressão linear baixa e o que você faria

Eu enfrentei uma pergunta de entrevista para um trabalho em que o entrevistador me perguntou que seu é muito baixo (entre 5 a 10%) para um modelo de elasticidade de preço. Como você resolveria essa questão? $R^2$

Eu não conseguia pensar em outra coisa senão o fato de fazer o diagnóstico de regressão para ver o que deu errado ou se algum método não linear deve ser aplicado. De alguma forma, acho que o entrevistador não ficou satisfeito com a minha resposta. Existe algo mais que é feito nesse cenário para ajustar um modelo e usá-lo na previsão do nível de produção, apesar de ter baixo ? $R^2$

Edit : Numa fase posterior, eles me deram os dados para modelar o problema durante a entrevista e tentei adicionar variáveis defasadas, impacto do preço do concorrente, manequins de sazonalidade para ver se isso fazia alguma diferença. foi para 17,6% e seu desempenho na amostra de retaguarda foi ruim. Pessoalmente, acho que é antiético colocar esse modelo de previsão no ambiente ao vivo, pois ele dará resultados errados e resultará em perda de clientes (imagine usar a recomendação de preços desse modelo na receita da sua empresa!). Existe algo mais que é feito nesses cenários que é óbvio demais que todos precisam saber? Algo que não conheço e que sou tentado a dizer 'uma bala de prata'? $R^2$

Além disso, vamos imaginar, após adicionar a variável exógena melhorar mais 2%, então o que pode ser feito nesse cenário? Devemos descartar o projeto de modelagem ou ainda há alguma esperança de desenvolver um modelo de qualidade no nível de produção indicado pelo desempenho na amostra de validação? $R^2$

Edit2 : Tenho postado esta pergunta em economics.stackexchange.com fórum para a compreensão deste problema a partir da perspectiva da economia

regression self-study theory

— Entusiasta
fonte

"suponha que seu seja muito baixo (entre 5 a 10%) para um modelo de elasticidade de preço" não é uma questão . Minha resposta para "suponha que seu seja muito baixo (entre 5 a 10%) para um modelo de elasticidade de preço" seria "ok, pronto". Posso supor que não há problema, então não há mais nada a fazer. Se eles realmente não chegassem, eu teria que perguntar que aspecto disso eles consideravam um problema a resolver. Na ausência deles, qual é o problema aqui?

R^{2}

$R^2$

R^{2}

$R^2$

— Glen_b -instala Monica

Eu o marquei para auto-estudo @Glen_b, deixe-me saber se preciso adicionar mais detalhes. Obrigado!

— Entusiasta

Obrigado, é uma boa coisa a fazer. Porém, mais detalhes incluiriam a pergunta real que você precisava resolver. "Suponha que X" esteja apresentando uma situação que não pede que você resolva nada.

— Glen_b -Reinstala Monica

Publicado em economics.stackexchange.com/q/16617 . Tente decidir o melhor site para uma pergunta: se você acha que vale a pena adaptar variantes para sites diferentes, ainda os vincule.

— Scortchi - Restabelece Monica

@ Scortchi, adicionei o link como edição adicional nos dois fóruns. Obrigado!

— Entusiasta

Respostas:

E se olharmos para o problema dessa perspectiva. Elasticidade de preço é a relação entre demanda e preço de um produto.

Quando o quadrado r nessa situação é baixo, poderíamos sugerir que a relação entre preço e demanda para esse produto em particular não é forte.

Do ponto de vista do preço, pode significar que você encontrou um produto pelo qual pode fazer o preço arbitrariamente sem um grande impacto na demanda OU que a demanda é bastante irregular, apesar dos preços diferenciais.

Se você observar os produtos Veblen , eles são exemplos em que a elasticidade é inversa. À medida que o preço aumenta, a demanda aumenta.

Se, por outro lado, o quadrado r for baixo, poderia significar simplesmente uma categoria de produto para a qual o preço é relativamente sem importância quando se trata de demanda. Do alto da minha cabeça, um medicamento contra o câncer poderia ser algo que pudesse aderir a essa propriedade. Onde a importância do medicamento supera o preço que ele determina e não pode mostrar nenhuma mudança na demanda.

E, concluindo, estou assumindo que a intenção do entrevistador poderia ter sido julgar se você sabia o que significava a implicação de um quadrado baixo em vez de descobrir como construir um modelo melhor com um quadrado maior.

— Arun Jose
fonte

+1 para a conclusão. Também estou pensando que o objetivo dessa pergunta é tentar ver se o candidato persegue cegamente uma métrica sem entendê-la completamente.

— Haitao Du

Não sei ao certo o que o entrevistador buscava, mas, ao encarar um modelo com pouca formação, essas são as coisas que considero e uma resposta que eu adoraria ouvir como entrevistador (que faz entrevistas há alguns anos).

Obtendo mais dados : isso nem sempre pode ajudar, mas há algumas coisas que podem ajudá-lo a avaliar os efeitos desta solução:
- Execute o modelo com diferentes tamanhos de amostra - se os resultados melhorarem com mais dados, é razoável supor que a obtenção de mais dados continuará melhorando o desempenho do modelo.
- Proporção de recursos para amostra - depois de selecionar os recursos, tente entender se você tem amostras suficientes para cada valor de recurso. Veja uma pergunta respondida sobre este assunto .
- Valores-alvo ausentes - a elasticidade pode não se comportar de maneira semelhante entre diferentes faixas de preço. Em uma situação em que os dados das amostras são enviesados para um intervalo específico, há uma boa chance de você não conseguir generalizar (por exemplo, 90% das amostras são para preços entre 0 e 10 e os outros 10% são para preços entre 1000-10000). Existem outras maneiras de solucionar esse problema, além de obter mais dados (divida o treinamento do modelo, não use regressão).
Melhor engenharia de recursos : se você possui dados suficientes e conhece um aprendizado profundo, talvez este seja irrelevante. Caso você não se enquadre nos critérios mencionados, concentre seus esforços nesse. Nos modelos de comportamento do usuário, há muitas relações que nossa intuição humana compreende melhor do que um modelo treinado por máquina.
Como no seu caso, você projetou mais alguns recursos e melhorou muito o desempenho do modelo. Esta etapa é propensa a erros, pois geralmente envolve código baseado em lógica (If Elses / Fórmulas Matemáticas).
Melhor seleção de modelo : como você sugeriu, talvez um modelo não linear funcione melhor. Seus dados são homogêneos? Você tem motivos para acreditar que as características cruzadas explicam melhor a elasticidade do preço? (sazonalidade * preço do competidor).
Ajuste de hiper parâmetros : os hiper parâmetros do modelo de pesquisa em grade (+ resultados de validação cruzada) são uma boa prática, mas, na minha experiência, raramente melhoram muito o desempenho (certamente não de 5% a 90%).

Há mais coisas que podem ser feitas, mas esses pontos são genéricos o suficiente.

— yoav_aaa
fonte

Além do sugerido por @DaFanat e @Arun, gostaria de acrescentar que alguma inspeção visual pode ajudar.

Por exemplo, pode ser que alguns outliers afetem seu . Tendo trabalhado em problemas de gerenciamento de receita, tive que investigar constantemente pontos influentes . Muitas vezes, os outliers estavam associados a eventos pontuais específicos, como campanhas promocionais, descontos etc. $R^2$

— IcannotFixThis
fonte

Obrigado por compartilhar a entrada de domínio específico como este é de fato um problema de gestão de receitas

— Enthusiast