Na análise de regressão, qual é a diferença entre 'processo de geração de dados' e 'modelo'?
Na análise de regressão, qual é a diferença entre 'processo de geração de dados' e 'modelo'?
Respostas:
Todos nós sabemos bem o que "modelo" pode significar, embora sua definição técnica varie entre as disciplinas. Para comparar isso com o DGP, comecei analisando os cinco principais hits (contando dois hits com o mesmo autor como um) no "processo de geração de dados" do Google.
Um artigo sobre como a Força Aérea dos EUA realmente cria dados em suporte logístico.
Resumo de um artigo publicado no Environment and Planning A sobre como "micropopulações sintéticas" são criadas por meio de "modelos de simulação".
Uma página da Web sobre "geração sintética de dados"; isto é, simulação "para explorar os efeitos de certas características de dados em ... modelos".
Resumo de um documento de conferência em mineração de dados, afirmando que "os dados nos bancos de dados são o resultado de um processo de geração de dados subjacente (dgp)".
Um capítulo do livro que caracteriza os dados de interesse como "decorrentes de alguma transformação de um subjacente [estocástica] processo de V t ... alguns ou todos [de que] pode ser despercebido ..."
Esses links exibem três usos ligeiramente diferentes, mas intimamente relacionados, do termo "processo de geração de dados". O mais comum é em um contexto de simulação estatística. Os demais se referem aos meios reais pelos quais os dados são criados em uma situação contínua (logística) e a um modelo de probabilidade para um procedimento contínuo de criação de dados, que não deve ser analisado diretamente. No último caso, o texto está diferenciando um processo estocástico não observável, que é modelado matematicamente, a partir dos números reais que serão analisados.
Eles sugerem que duas respostas ligeiramente diferentes são sustentáveis:
No contexto de simulação ou criação de dados "sintéticos" para análise, o "processo de geração de dados" é uma maneira de criar dados para estudos subsequentes, geralmente por meio do gerador de números pseudo-aleatórios de um computador. A análise adotará implicitamente algum modelo que descreve as propriedades matemáticas deste DGP.
No contexto da análise estatística, podemos querer distinguir um fenômeno do mundo real (o DGP) das observações que serão analisadas. Temos modelos para o fenômeno e as observações, bem como um modelo de como os dois estão conectados.
Em regressão, em seguida, o DGP normalmente descrever a forma como um conjunto de dados = ( X 1 i , x 2 i , ... , X p i , Y i ) , i = 1 , 2 , ... , n é assumido como produzido. Por exemplo , o X j i poderia ser definida pelo experimentador ou poderiam ser observado, de alguma forma e então presume-se que causaou estar relacionado aos valores de . O modelo descreveria as possíveis maneiras pelas quais esses dados podem ser matematicamente relacionados; por exemplo , pode-se dizer que cada Y i é uma variável aleatória com expectativa X β e variância σ 2 para os parâmetros desconhecidos p e σ .
O DGP é o verdadeiro modelo. O modelo é o que tentamos, usando nossas melhores habilidades, para representar o verdadeiro estado da natureza. O DGP é influenciado pelo "ruído". O ruído pode ser de vários tipos:
Se você não controla esses 6 itens, sua capacidade de identificar o verdadeiro DGP é reduzida.
A resposta de Whuber é excelente, mas vale a pena acrescentar ênfase ao fato de que um modelo estatístico não precisa se assemelhar ao modelo de geração de dados em todos os aspectos para ser um modelo apropriado para a exploração inferencial de dados. Liu e Meng explicam esse ponto com grande clareza em seu recente artigo arXived ( http://arxiv.org/abs/1510.08539 ):
Equívoco 1. Um modelo de probabilidade deve descrever a geração dos dados.
) Em nenhum lugar esse ponto é mais claro do que nas aplicações que envolvem experimentos em computador onde um padrão probabilístico é usado para descrever dados que seguem um padrão determinístico conhecido (mas altamente complicado) (Kennedy e O'Hagan, 2001; Conti et al., 2009). Precisamos de um modelo descritivo, não necessariamente de um modelo generativo. Veja Lehmann (1990), Breiman (2001) e Hansen e Yu (2001) para mais informações sobre este ponto.
DGP é a realidade virtual e uma receita única para simulação. Um modelo é uma coleção de DGP ou possíveis maneiras pelas quais os dados poderiam ter sido gerados.
Leia a primeira página deste minicurso de Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf