Vamos supor que você tenha recebido alguns dados de um delineamento de blocos casualizados com 4 repetições e 23 tratamentos. Após uma inspeção inicial dos dados, você percebe que, durante 8 tratamentos, todas as repetições são idênticas, o que está obviamente errado. Após relatar o problema, você será informado de que foi devido a uma confusão da pessoa responsável pelos dados, que posteriormente enviará a "versão correta" dos dados. A versão corrigida dos dados seria algo como isto:
Valor do representante do tratamento A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
A primeira coisa que chamaria minha atenção em tais dados seria o fato de que apenas os oito tratamentos para os quais o problema foi relatado não possuem nenhuma fração decimal (todos os demais tratamentos são bons). Então, eu decidia dar uma olhada mais de perto e subtrair cada observação da média da amostra nos tratamentos, encontrando algo como
Delta do valor do representante de tratamento A 1 5727.000 +127 A 2 5400.000 -200 A 3 5800.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329,345 ... Z 2 4597,275 ... Z 3 4833,246 ... Z 4 4199,098 ...
Depois de ver que as diferenças são simétricas em relação à média, eu telefonaria imediatamente para a pessoa responsável pelo projeto e relataria o problema. Claro, eu também desistiria de trabalhar nesse projeto.
Embora a evidência seja bastante convincente, seria bom anexar uma probabilidade ao relatório, apenas para dar uma idéia de quão ruins esses dados são. Então, eu teria pensado em algo como o seguinte e gostaria de saber se haveria alguma falha no meu raciocínio:
Digamos que, se os dados fossem legítimos, seria razoável assumir a normalidade para esse tipo de dados, com base na experiência de análises anteriores desse tipo de dados.
Então, vamos definir 4 variáveis aleatórias normais para cada uma das quatro repetições em cada tratamento: A simetria (com uma tolerância de 0,5) observada acima pode ser expressa como o evento: Ainda existem outros equivalentes maneiras pelas quais as amostras podem ser organizadas para satisfazer a simetria (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3), de modo que a probabilidade da simetria (S) seja:
A desigualdade é simplesmente porque eu não quero remover a interseção.
Se definirmos a variável aleatória Y da seguinte forma:
Daqui resulta:
Digamos que, a partir dos resíduos do modelo com esses dados, o como 350. A partir disso, usaria o CDF de y para calcular a probabilidade de Y cair entre -0,5 e 0,5, que seria P (A ) = 0.0005699175
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
Como tal, a probabilidade de S seria:
Como não haveria um efeito de bloco claro e os dados viriam de um experimento randomizado, seria razoável assumir independência estatística. Vamos supor que dos 8 tratamentos suspeitos, 3 tenham essa simetria. Então, assumindo a independência, poderíamos calcular a probabilidade desse evento (vamos chamá-lo de D) a partir de uma distribuição binomial:
D: 3 de 8 tratamentos apresentam simetria de observações em torno da média da amostra.
Como não sou estatístico, gostaria de saber se existe alguma falha nesse raciocínio e se você também denunciaria os dados como fraudulentos.