Estou trabalhando em uma tarefa de casa, onde meu professor gostaria que criassemos um verdadeiro modelo de regressão, simulássemos uma amostra de dados e ele tentaria encontrar nosso verdadeiro modelo de regressão usando algumas das técnicas que aprendemos em sala de aula. Da mesma forma, teremos que fazer o mesmo com um conjunto de dados que ele nos forneceu.
Ele diz que conseguiu produzir um modelo bastante preciso para todas as tentativas anteriores de tentar enganá-lo. Houve alguns estudantes que criaram um modelo insano, mas ele foi capaz de produzir um modelo mais simples e suficiente.
Como posso desenvolver um modelo complicado para ele encontrar? Eu não quero ser super barato, fazendo 4 termos quadráticos, 3 observações e grande variação? Como posso produzir um conjunto de dados aparentemente inócuo que possui um pequeno modelo resistente por baixo?
Ele simplesmente tem 3 regras a seguir:
Seu conjunto de dados deve ter uma variável "Y" e 20 variáveis "X" rotuladas como "Y", "X1", ..., "X20".
Sua variável de resposta deve vir de um modelo de regressão linear que satisfaça: onde e .
Todas as variáveis usadas para criar estão contidas no seu conjunto de dados.
Note-se, nem todas as 20 variáveis X precisam estar no seu modelo real
Eu estava pensando em usar algo como o Modelo de 3 Fatores Fama-Francês e fazer com que ele começasse com os dados de estoque (SPX e AAPL) e tivesse que transformar essas variáveis em retornos continuamente compostos, a fim de obsfocá-lo um pouco mais. Mas isso me deixa com valores ausentes na primeira observação e são séries temporais (que ainda não discutimos em aula).
Não tenho certeza se este é o lugar certo para postar algo assim. Eu senti que isso poderia gerar uma boa discussão.
Edit: Eu também não estou pedindo modelos "pré-construídos" em particular. Estou mais curioso sobre tópicos / ferramentas em Estatística que permitiriam que alguém fizesse isso.