Não consigo interpretar este gráfico. Minha variável dependente é o número total de ingressos de cinema que serão vendidos para um show. As variáveis independentes são o número de dias que restam antes do show, variáveis fictícias da sazonalidade (dia da semana, mês do ano, feriado), preço, ingressos vendidos até a data, classificação do filme, tipo de filme (suspense, comédia, etc., como manequins ) Além disso, observe que a capacidade da sala de cinema é fixa. Ou seja, ele pode hospedar no máximo x número de pessoas apenas. Estou criando uma solução de regressão linear e ela não está ajustando meus dados de teste. Então, pensei em começar com o diagnóstico de regressão. Os dados são de uma única sala de cinema para a qual eu quero prever a demanda.
O é um conjunto de dados multivariado. Para cada data, há 90 linhas duplicadas, representando dias antes do show. Portanto, para 1 de janeiro de 2016, existem 90 registros. Existe uma variável 'lead_time' que me fornece o número de dias antes do show. Portanto, para 1 de janeiro de 2016, se lead_time tiver o valor 5, significa que os ingressos serão vendidos até 5 dias antes da data do show. Na variável dependente, total de ingressos vendidos, terei o mesmo valor 90 vezes.
Além disso, como observação lateral, existe algum livro que explica como interpretar a plotagem residual e melhorar o modelo posteriormente?