EDIT: Como esta pergunta foi inflada, um resumo: encontrando diferentes conjuntos de dados significativos e interpretáveis com as mesmas estatísticas mistas (média, mediana, faixa intermediária e suas dispersões associadas e regressão).
O quarteto de Anscombe (consulte Objetivo da visualização de dados de alta dimensão? ) É um exemplo famoso de quatro conjuntos de dados - , com a mesma média marginal / desvio padrão (nos quatro quatro , separadamente) e o mesmo ajuste linear do OLS , regressão e soma dos quadrados residuais e coeficiente de correlação . As estatísticas do tipo (marginal e conjunta) são, portanto, as mesmas, enquanto os conjuntos de dados são bem diferentes.
EDIT (dos comentários do OP) Deixando de lado o pequeno tamanho do conjunto de dados, deixe-me propor algumas interpretações. O conjunto 1 pode ser visto como um relacionamento linear padrão (afim, correto) com o ruído distribuído. O conjunto 2 mostra um relacionamento limpo que pode ser o ápice de um ajuste de alto grau. O conjunto 3 mostra uma dependência estatística linear clara com um outlier. O conjunto 4 é mais complicado: a tentativa de "prever" de parece estar fadada ao fracasso. O design de pode revelar um fenômeno de histerese com uma faixa insuficiente de valores, um efeito de quantização (o pode ser quantificado demais) ou o usuário alterou as variáveis dependentes e independentes.
Portanto, os recursos de resumo ocultam comportamentos muito diferentes. O conjunto 2 poderia ser melhor tratado com um ajuste polinomial. Definir 3 com métodos outlier-resistente ( ou similares), bem como Set 4. maravilha se poderia se outras funções de custo ou indicadores discrepância poderia resolver, ou pelo menos melhorar o conjunto de dados discriminação. EDIT (dos comentários do OP): a postagem de blog Regressões Curiosas afirma que:
Aliás, me disseram que Frank Anscombe nunca revelou como ele criou esses conjuntos de dados. Se você acha que é uma tarefa fácil obter todas as estatísticas de resumo e os resultados da regressão da mesma forma, tente!
Nos conjuntos de dados construídos para um propósito semelhante ao do quarteto de Anscombe , vários conjuntos de dados interessantes são fornecidos, por exemplo, com os mesmos histogramas baseados em quantis. Não vi uma mistura de relacionamento significativo e estatísticas mistas.
Minha pergunta é: existem conjuntos de dados bivariados (ou triviais, para manter a visualização) semelhantes a Anscombe, que, além de ter as mesmas estatísticas do tipo :
- seus gráficos são interpretáveis como uma relação entre e , como se alguém estivesse procurando uma lei entre medidas,
- eles possuem o mesmo (mais robusto) propriedades marginais (mesma mediana e mediana de desvio absoluto),
- eles têm as mesmas caixas delimitadoras: mesmo min, max (e, portanto, tipo e estatísticas intermediárias e intermediárias).
Esses conjuntos de dados teriam os mesmos resumos de plotagem "caixa e bigodes" (com mín., Máx., Mediana, desvio absoluto médio / MAD, média e padrão) em cada variável e ainda seriam bastante diferentes na interpretação.
Seria ainda mais interessante se alguma regressão menos absoluta fosse a mesma para os conjuntos de dados (mas talvez eu já esteja pedindo demais). Eles poderiam servir de advertência ao falar sobre regressão robusta versus não robusta e ajudar a lembrar a citação de Richard Hamming:
O objetivo da computação é insight, não números
EDIT (dos comentários do OP) Questões semelhantes são tratadas em Gerando dados com estatísticas idênticas, mas Gráficos diferentes , Sangit Chatterjee e Aykut Firata, The American Statistician, 2007 ou Dados de clonagem: gerando conjuntos de dados com exatamente o mesmo ajuste de regressão linear múltipla, J. Aust. N.-Z. Stat. J. 2009.
Em Chatterjee (2007), o objetivo é gerar novos pares com as mesmas médias e desvios padrão do conjunto de dados inicial, maximizando diferentes funções objetivas de "discrepância / dissimilaridade". Como essas funções podem ser não convexas ou não diferenciáveis, elas usam algoritmos genéticos (GA). Etapas importantes consistem na orto-normalização, que é muito consistente com a preservação da média e da (unidade) variância. As figuras do papel (metade do conteúdo do papel) sobrepõem os dados de entrada e de saída do GA. Minha opinião é que as saídas do GA perdem muito da interpretação intuitiva original.
E tecnicamente, nem a mediana nem a faixa média são preservadas, e o artigo não menciona procedimentos de renormalização que preservariam , e Estatísticas.