Ocultando um modelo de regressão do professor (Regression Battleship) [fechado]


11

Estou trabalhando em uma tarefa de casa, onde meu professor gostaria que criassemos um verdadeiro modelo de regressão, simulássemos uma amostra de dados e ele tentaria encontrar nosso verdadeiro modelo de regressão usando algumas das técnicas que aprendemos em sala de aula. Da mesma forma, teremos que fazer o mesmo com um conjunto de dados que ele nos forneceu.

Ele diz que conseguiu produzir um modelo bastante preciso para todas as tentativas anteriores de tentar enganá-lo. Houve alguns estudantes que criaram um modelo insano, mas ele foi capaz de produzir um modelo mais simples e suficiente.

Como posso desenvolver um modelo complicado para ele encontrar? Eu não quero ser super barato, fazendo 4 termos quadráticos, 3 observações e grande variação? Como posso produzir um conjunto de dados aparentemente inócuo que possui um pequeno modelo resistente por baixo?

Ele simplesmente tem 3 regras a seguir:

  1. Seu conjunto de dados deve ter uma variável "Y" e 20 variáveis ​​"X" rotuladas como "Y", "X1", ..., "X20".

  2. Sua variável de resposta deve vir de um modelo de regressão linear que satisfaça: onde e .Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Todas as variáveis usadas para criar estão contidas no seu conjunto de dados.XY

Note-se, nem todas as 20 variáveis ​​X precisam estar no seu modelo real

Eu estava pensando em usar algo como o Modelo de 3 Fatores Fama-Francês e fazer com que ele começasse com os dados de estoque (SPX e AAPL) e tivesse que transformar essas variáveis ​​em retornos continuamente compostos, a fim de obsfocá-lo um pouco mais. Mas isso me deixa com valores ausentes na primeira observação e são séries temporais (que ainda não discutimos em aula).

Não tenho certeza se este é o lugar certo para postar algo assim. Eu senti que isso poderia gerar uma boa discussão.

Edit: Eu também não estou pedindo modelos "pré-construídos" em particular. Estou mais curioso sobre tópicos / ferramentas em Estatística que permitiriam que alguém fizesse isso.


4
Vai ser difícil se ele está limitando-o a um modelo linear ...
Frank H.

4
Se o seu professor vencer, se seus verdadeiros coeficientes estiverem dentro dos intervalos de confiança de 95%, a multicolinearidade não ajudará, porque a multicolinearidade aumenta enormemente os ICs. Se, por outro lado, a avaliação for feita sobre a diferença entre os dados previstos e reais em novos preditores (os dados "reais" foram gerados usando o seu verdadeiro DGP), a multicolinearidade será uma abordagem muito melhor. Conclusão: descubra qual é a função de destino e adapte sua abordagem a ela. (Isto aplica-se de modo mais geral na vida ...)
Stephan Kolassa

4
@dylanjm Você poderia definir com precisão suas condições de vitória?
Matthew Gunn

11
O objetivo desse exercício é que você aprenda tentando pensar em alguma coisa . Se você colocar especialistas aqui contra ele, sua oportunidade de realmente esticar seu cérebro consolidando diferentes informações que você recebeu em relação à regressão será reduzida drasticamente (além de ser injusta com o professor). Além disso, em qualquer instituição respeitável que apresente um trabalho para ele como seu, quando foi parcialmente realizado por outra pessoa, pode estar em algum lugar entre a má conduta acadêmica e a fraude (especialmente se isso fizer parte de sua marca). Tenha muito cuidado com exatamente como você pergunta isso.
Glen_b -Reinstala Monica

4
Apesar da popularidade desta questão, sinto-me obrigado a encerrá-la neste momento, porque mesmo após repetidos pedidos de esclarecimentos sobre as regras do jogo (que critérios serão usados ​​para avaliar o sucesso, quantas amostras você deve fornecer, etc.) isso é importante a informação ainda não apareceu na pergunta. Nossos objetivos são mais restritos e mais focados do que "gerar discussão": consulte nossa central de ajuda para saber os tipos de perguntas que podemos abordar neste site.
whuber

Respostas:


6

Simplesmente torne o termo do erro muito maior que a parte explicada. Por exemplo: , em que , e . Claro, você precisa se lembrar qual era sua semente, para poder provar ao seu professor que estava certo e ele estava errado.yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Boa sorte na identificação da fase com essa relação ruído / sinal.


Isso parece não funcionar para o critério de vitória do IC, funciona? Nós simplesmente obteremos ICs enormes que certamente abrangerão 1. E alguma instabilidade numérica, é claro.
precisa saber é o seguinte

Instabilidade não será um problema, tudo o que estou fazendo é enterrar o sinal em ruído. Isso sairá como ruído branco puro.
Aksakal

4
este foi considerado um modelo mais barato indesejável pelo OP
Sexto Empírico

5

Se o objetivo dele é recuperar o verdadeiro processo de geração de dados que cria , enganar o professor é bastante trivial. Para dar um exemplo, considere distúrbios e as seguintes equações estruturais:YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Observe que o verdadeiro DGP de , que inclui apenas , satisfaz trivialmente a condição 2. A condição 3 também é atendida, pois é a única variável a criar e você está fornecendo e .YX1X1YX1X2

No entanto, não há como seu professor saber se ele deve incluir apenas apenas ou e para recuperar o verdadeiro DGP de (se você acabar usando este exemplo, altere o número de variáveis). Provavelmente, ele apenas fornecerá como resposta a regressão com todas as variáveis, uma vez que todas aparecerão como preditores significativos. Você pode estender isso para 20 variáveis, se desejar, verifique esta resposta aqui e a máquina de paradoxos de Simpson aqui.X1X2X1X2 Y

Observe todas as expectativas condicionais , ou as expectativas condicionais estão corretamente especificados, mas só reflete a verdadeira DGP de . Assim, depois que seu professor inevitavelmente falha na tarefa, ele pode argumentar que seu objetivo era simplesmente recuperar qualquer expectativa condicional ou obter a melhor previsão de etc. Você pode argumentar que não foi o que ele disse, pois afirma :E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

A variável Y deve vir de um modelo de regressão linear que satisfaça (...) variáveis usadas para criar Y (...) seu modelo real (...)

E você pode desencadear uma boa discussão em aula sobre causalidade, o que significa o verdadeiro DGP e a identificabilidade em geral.


você está propondo um modelo que seja compatível com o # 2 na pós
Aksakal

3

Use variáveis ​​com multicolinearidade e heterocedasticidade, como renda versus idade: faça alguma engenharia de recursos dolorosa que ofereça problemas de escala: forneça NAs para alguns borrifados em escassez. A peça de linearidade realmente a torna mais desafiadora, mas pode ser dolorosa. Além disso, discrepantes aumentariam o problema para ele antecipadamente.


Acho que a heterocedasticidade está fora do escopo do problema, mas definitivamente concordo que a multicolinearidade é uma das melhores maneiras de tornar difícil encontrar a verdadeira especificação.
JDL

2

Os termos de interação são permitidos? caso, defina todos os coeficientes de ordem inferior como 0 e construa o modelo inteiro a partir de interações de enésima ordem (por exemplo, termos como ). Para 20 regressores, o número de possíveis interações é astronomicamente grande e seria muito difícil encontrar apenas as que você incluiu.X5X8X12X13


0

Escolha qualquer modelo linear. Dê a ele um conjunto de dados em que a maioria das amostras esteja em torno de x = 0. Dê a ele algumas amostras em torno de x = 1.000.000.

O bom aqui que as amostras em torno de x = 1.000.000 não são discrepantes. Eles são gerados a partir da mesma fonte. No entanto, como as escalas são muito diferentes, os erros em torno de 1 milhão não se encaixam nos erros em torno de 0.

Vamos considerar um exemplo. Nosso modelo é apenas

Yi=β0+β1Xi1+ϵi

Temos um conjunto de dados de n amostras, perto de x = 0. Vamos escolher mais 2 pontos em valores "longe o suficiente". Assumimos que esses dois pontos tenham algum erro.

Um valor "longe o suficiente" é um valor que o erro para uma estimativa que não passa diretamente nesses dois pontos é muito maior que o erro do restante do conjunto de dados.

Portanto, a regressão linear escolherá coeficientes que passarão nesses dois pontos e perderão o restante do conjunto de dados e serão diferentes do modelo subjacente.

Veja o exemplo a seguir. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Este está no formato da série WolfarmAlpha. Em cada par, o primeiro item é x e o segundo foi gerado no Excel usando a fórmula = A2 + NORMINV (RAND (), 0,2000).

Portanto, e adicionamos ruído aleatório distribuído normalmente com média 0 e desvio padrão de 2000. Isso é muito ruído próximo a zero, mas pequeno perto de um milhão.β0=1,β1=1

Usando Wolfram Alpha, você obtém a seguinte regressão linear , que é bem diferente da distribuição sublinhada dey = xy=178433.x426805y=x


Como exatamente isso deve funcionar e que efeito isso deve criar?
Richard Hardy

Funciona, pois o ruído e a precisão funcionam de maneira diferente nas diferentes escalas. Nos números altos, levando ao extremo e considerar um único ponto, a linha deve passar diretamente por ele ou sofrer muito custo. Algum ruído é suficiente para perder os valores corretos. Em torno de zero, mais uma vez no extremo - sem intenções, você fica com o barulho.
Dal

Use um valor pequeno para a variável com o coeficiente errado e você está pagando o custo.
DaL

Sim, mas por que seria difícil para o professor descobrir o modelo que gerou isso? Parece uma tarefa particularmente fácil quando há muita variação no regressor fornecido.
Richard Hardy

Porque nenhum modelo se encaixa bem nos dois grupos.
DaL
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.