Como contexto: ao trabalhar com um conjunto de dados muito grande, às vezes me perguntam se podemos criar um conjunto de dados sintético onde "conhecemos" o relacionamento entre os preditores e a variável de resposta, ou os relacionamentos entre os preditores.
Ao longo dos anos, pareço encontrar conjuntos de dados sintéticos únicos, que parecem ter sido elaborados de maneira ad hoc, ou conjuntos de dados mais estruturados que parecem especialmente favoráveis ao método de modelagem proposto pelo pesquisador.
Acredito que estou procurando métodos padrão para criar conjuntos de dados sintéticos. Embora a reamostragem de autoinicialização seja um método comum para criar um conjunto de dados sintético, ela não satisfaz a condição de que conhecemos a estrutura a priori . Além disso, a troca de amostras de bootstrap com outras pessoas requer essencialmente a troca de dados, e não um método de geração de dados.
Se podemos ajustar uma distribuição paramétrica aos dados ou encontrar um modelo parametrizado suficientemente próximo, então este é um exemplo em que podemos gerar conjuntos de dados sintéticos.
Que outros métodos existem? Estou especialmente interessado em dados de alta dimensão, dados esparsos e dados de séries temporais. Para dados de alta dimensão, eu procuraria métodos que possam gerar estruturas (por exemplo, estrutura de covariância, modelos lineares, árvores etc.) de interesse. Para dados de séries temporais, de distribuições por FFTs, modelos AR ou vários outros modelos de filtragem ou previsão parece um começo. Para dados esparsos, a reprodução de um padrão de esparsidade parece útil.
Acredito que isso apenas arranha a superfície - essas são práticas heurísticas, não formais. Existem referências ou recursos para gerar dados sintéticos que devem ser conhecidos pelos profissionais?
Nota 1: Percebo que esta pergunta aborda a literatura sobre como se pode gerar dados como um modelo de série temporal específico. A distinção aqui é sobre práticas, especialmente para indicar uma estrutura conhecida (minha pergunta), versus semelhança / fidelidade a um conjunto de dados existente. Não é necessário, no meu caso, ter semelhança, tanto quanto estrutura conhecida, embora a semelhança seja muito preferida à dissimilaridade. Um conjunto de dados sintético exótico para o qual um modelo mostra promessa é menos preferido do que uma simulação realista.
Nota 2: A entrada da Wikipedia para dados sintéticos indica que luminares como Rubin e Fienberg abordaram esse problema, embora eu não tenha encontrado referências sobre as melhores práticas. Seria interessante saber o que seria aprovado nos Anais de Estatística Aplicada (ou AOS) ou em trabalhos de revisão nesses ou em outros periódicos. Em termos simples e extravagantes, pode-se perguntar onde existe o limiar entre "(aceitável) cozido" e "muito cozido"?
Nota 3: Embora isso não afete a questão, o cenário de uso está na modelagem de conjuntos de dados grandes e de alta dimensão, onde a agenda de pesquisa é aprender (tanto por humanos quanto por máquinas ;-)) a estrutura dos dados. Ao contrário de cenários univariados, bivariados e outros de baixa dimensão, a estrutura não é facilmente inferida. À medida que avançamos em direção a um melhor entendimento da estrutura, é interessante poder gerar conjuntos de dados com propriedades semelhantes para ver como um método de modelagem interage com os dados (por exemplo, para examinar a estabilidade dos parâmetros). No entanto, guias mais antigos sobre dados sintéticos de baixa dimensão podem ser um ponto de partida que pode ser estendido ou adaptado para conjuntos de dados de dimensões superiores.