A proposta possui inúmeras falhas. Aqui é talvez o maior.
Suponha que você esteja coletando dados e veja estes valores:
2 , 3 , 1
6 / 3 = 2
Então vem um outlier:
2 , 3 , 1 , 1000
Então você substitui-o pela média:
2 , 3 , 1 , 2
O próximo número é bom:
2 , 3 , 1 , 2 , 7
Agora, a média é 3. Espere um minuto, a média agora é 3, mas substituímos 1000 por uma média de 2, apenas porque ocorreu como o quarto valor. E se mudarmos a ordem das amostras?
2 , 3 , 1 , 7 , 1000
( 2 + 3 + 1 + 7 ) / 4 = 13 / 4
O problema é que o dado falso que estamos substituindo no lugar de 1000 depende dos outros dados. Esse é um problema epistemológico se as amostras devem representar medidas independentes.
nnnnn
Basicamente, cortar os resultados que não se encaixam é uma coisa (e pode ser justificado se for feito de maneira consistente, de acordo com um algoritmo, e não com as mudanças de humor do pesquisador).
Os resultados definitivos da falsificação são questionáveis em bases filosóficas, epistemológicas e éticas.
Pode haver algumas circunstâncias atenuantes, que têm a ver com a forma como os resultados são usados. Como, por exemplo, digamos que essa substituição de valores discrepantes pela média atual faça parte do algoritmo de alguns computadores embarcados, o que lhe permite implementar um sistema de controle em circuito fechado. (Ele coleta amostras de algumas saídas do sistema e depois ajusta as entradas para obter o controle.) Tudo é em tempo real e, portanto, algo deve ser fornecido por um determinado período de tempo no lugar de dados ausentes. Se esse truque ajuda a superar falhas e garante uma operação suave, tudo está bem.
Aqui está outro exemplo, da telefonia digital: PLC (ocultação de perda de pacotes). Porcaria acontece, e os pacotes se perdem, mas a comunicação é em tempo real. O PLC sintetiza trechos falsos de voz com base nas informações recentes de pitch dos pacotes recebidos corretamente. Portanto, se um alto-falante estava dizendo a vogal "aaa" e um pacote foi perdido, o PLC pode preencher o pacote ausente extrapolando o "aaa" pela duração do quadro (digamos 5 ou 10 milissegundos ou o que for). O "aaa" é tal que se assemelha à voz do falante. Isso é análogo ao uso de uma "média" para substituir valores considerados ruins. É uma coisa boa; é melhor do que o som entrando e saindo e ajuda a inteligibilidade.
Se a falsificação de dados faz parte de um programa de mentir para as pessoas para encobrir falhas no trabalho, isso é outra coisa.
Portanto, não podemos pensar nisso independentemente da aplicação: como as estatísticas estão sendo usadas? As substituições levarão a conclusões inválidas? Existem implicações éticas?