Enquanto estudava suficiência, deparei-me com a sua pergunta, porque também queria entender a intuição sobre o que reuni. É o que proponho.
Seja uma amostra aleatória de uma distribuição de Poisson com média θ > 0 .X1,…,Xnθ>0
Sabemos que é uma estatística suficiente para θ , já que a distribuição condicional de X 1 , ... , X n dada T ( X ) é livre de θ , em outras palavras, não depende de θ .T(X)=∑ni=1XiθX1,…,XnT(X)θθ
Agora, o estatístico sabe que X 1 , ... , X n i . i . d ~ P o i s s o n ( 4 ) e cria n = 400A X1,…,Xn∼i.i.dPoisson(4)n=400 valores aleatórios deste distribuição:
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Para os valores que o estatístico criou, ele pega a soma e pergunta ao estatísticoA o seguinte:B
"Eu tenho esses valores de amostra retirados de uma distribuição Poisson. Sabendo que ∑ n i = 1 x i = y = 4068 , o que você pode me dizer sobre essa distribuição?"x1,…,xn∑ni=1xi=y=4068
Portanto, sabendo apenas que (e o fato de a amostra ter surgido de uma distribuição de Poisson) é suficiente para o estatístico B dizer alguma coisa sobre θ ? Como sabemos que esta é uma estatística suficiente, sabemos que a resposta é "sim".∑ni=1xi=y=4068Bθ
Para obter alguma intuição sobre o significado disso, vamos fazer o seguinte (extraído de "Introduction to Mathematics Statistics" de Hogg & Mckean & Craig, 7ª edição, exercício 7.1.9):
Bz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
since Y=∑Zi has a Poisson distribution with mean nθ. The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n. Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,…,zn."
This is what the exercise states. So, let's do exactly that:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,…,13 - anything above 13 is pratically zero -, for comparison):
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
So, knowing nothing about θ and knowing only the sufficient statistic Y=∑Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).
Now, comparing X and Z|y:
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
We see that they are pretty similar, as well (as expected)
So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2+⋯+Xn" (Ash, R. "Statistical Inference: A concise course", page 59).