Eu uso uma palavra diferente, dependendo da maneira em que eu uso os dados. Se eu encontrei o conjunto de dados inventado por aí e apontei meu algoritmo para ele de maneira confirmatória, a palavra "sintético" está correta.
No entanto, muitas vezes, sempre que uso esse tipo de dados, eu inventei os dados com a intenção específica de mostrar os recursos do meu algoritmo. Em outras palavras, inventei dados com o objetivo específico de obter "bons resultados". Em tais circunstâncias, gosto do termo "artificial", juntamente com uma explicação das minhas expectativas em relação aos dados. Isso ocorre porque não quero que ninguém cometa o erro de pensar que apontei meu algoritmo para algum conjunto de dados sintético arbitrário que encontrei por aí e realmente funcionou bem. Se eu tiver dados escolhidos com cereja (a ponto de realmente inventá-los) especificamente para fazer meu algoritmo funcionar bem, eu digo. Isso ocorre porque esses resultados fornecem evidências de que meu algoritmo podefunciona bem, mas fornece apenas evidências muito fracas de que se pode esperar que o algoritmo funcione bem em geral . A palavra "artificial" realmente resume muito bem o fato de ter escolhido os dados com "bons resultados" em mente, a priori.
"isso dá a impressão de dados fraudulentos ?"
Não, mas é importante ter clareza sobre a origem de qualquer conjunto de dados e suas expectativas a priori como experimentador ao relatar seus resultados em qualquer conjunto de dados. O termo "fraude" inclui explicitamente um aspecto de ter encoberto algo ou ter mentido completamente. A maneira # 1 de evitar a prática de fraudes na ciência é simplesmente ser honesto e direto sobre a natureza de seus dados e suas expectativas. Em outras palavras, se seus dados são fabricados e você não diz o mesmo de alguma maneira , e há algum tipo de expectativa de que os dados não sejam fabricados ou, pior ainda, você afirma que os dados são coletados de algum tipo não fabricado de maneira, então isso é"fraude". Não faça isso. Se você quiser usar algum sinônimo para o termo "fabricado" que "soa melhor", como "sintético", ninguém o culpará, mas ao mesmo tempo não acho que alguém notará a diferença, exceto você.
Uma nota lateral:
Menos óbvias são as circunstâncias em que se afirma ter expectativas a priori que são realmente explicações post hoc . Isso também é análise fraudulenta de dados.
Existe o perigo disso quando se escolhe dados especificamente com a intenção de "exibir" os recursos de um algoritmo, o que geralmente ocorre com dados sintéticos.
DHHDD
HDHD
Não há problema em fazer isso, desde que você seja honesto e franco sobre o que fez. Se você se esforçou para criar um conjunto de dados com "bons resultados", diga-o. Desde que você informe ao leitor as etapas que você tomou em sua análise de dados, ele possui as informações necessárias para avaliar efetivamente as evidências a favor ou contra suas hipóteses. Quando você não é honesto ou franco , isso pode dar a impressão de que suas evidências são mais fortes do que realmente são. Quando você SEMPRE é menos do que honesto e franco, a fim de fazer com que suas evidências pareçam mais fortes do que realmente são, então isso é, de fato, fraudulento.
De qualquer forma, é por isso que prefiro o termo "artificial" para esses conjuntos de dados, juntamente com uma breve explicação de que eles são, de fato, escolhidos com uma hipótese em mente. "Contrived" transmite a sensação de que não apenas criei um conjunto de dados sintético, mas o fiz com intenções particulares que refletem o fato de que minha hipótese já estava em vigor antes da criação do meu conjunto de dados.
ADx.y
tl; dr
Use o termo que desejar, "sintético", "artificial", "fabricado", "fictício". No entanto, o termo que você usa é insuficiente para garantir que seus resultados não sejam enganosos . Verifique se você é claro em seu relatório sobre como os dados foram gerados, incluindo suas expectativas em relação aos dados e os motivos pelos quais você escolheu os dados que escolheu.