Por que uma estatística suficiente contém todas as informações necessárias para calcular qualquer estimativa do parâmetro?

Acabei de começar a estudar estatística e não consigo entender intuitivamente a suficiência. Para ser mais preciso, não consigo entender como mostrar que os dois parágrafos a seguir são equivalentes:

Grosso modo, dado um conjunto X de dados independentes distribuídos de forma idêntica condicionados a um parâmetro desconhecido θ, uma estatística suficiente é uma função T (X) cujo valor contém todas as informações necessárias para calcular qualquer estimativa do parâmetro.

Uma estatística T (X) é suficiente para o parâmetro subjacente θ precisamente se a distribuição de probabilidade condicional dos dados X, dada a estatística T (X), não depende do parâmetro θ.

(Peguei as citações da estatística suficiente )

Embora eu compreenda a segunda declaração e possa usar o teorema da fatoração para mostrar se uma determinada estatística é suficiente, não consigo entender por que uma estatística com essa propriedade também tem a propriedade de "conter todas as informações necessárias para calcular qualquer estimativa do parâmetro ". Não estou procurando uma prova formal, que ajude a refinar meu entendimento, gostaria de obter uma explicação intuitiva sobre por que as duas declarações são equivalentes.

Para recapitular, minhas perguntas são: por que as duas declarações são equivalentes? Alguém poderia fornecer uma explicação intuitiva para sua equivalência?

sufficient-statistics

— gcoll
fonte

A principal idéia intuitiva é que, às vezes, você não precisa ver a amostra inteira porque pode encontrar uma estatística que resume todas as informações necessárias da amostra. Tomemos, por exemplo, uma distribuição binomial: tudo que você precisa saber para o seu modelo é a soma dos sucessos. Você faz qualquer coisa para não perder de valor se eu apenas dizer-lhe que

, em vez de mostrar todo o conjunto de valores amostrados

\sum_{i}^{n} x_{i} = c

$\sum_{i}^{n} x_i = c$

x = {1, 0, 0, 1, 0, 1, . . .}

$x = \{1, 0, 0, 1, 0, 1, ... \}$

— mugen

Entendo por que eu precisaria de estatísticas suficientes e como mostrar que a soma dos sucessos é uma estatística suficiente para p em um processo de Bernoulli. O que não entendo é por que uma estatística como a descrita no segundo parágrafo contém todas as informações necessárias para calcular qualquer estimativa do parâmetro.

— gcoll

A rigor, a primeira citação está totalmente errada. Existem muitos estimadores que podem ser calculados a partir de todo o conjunto de dados que não podem ser calculados apenas a partir de estatísticas suficientes. Essa é uma das razões pelas quais a cotação começa "aproximadamente". Outro motivo é que ele não fornece uma definição quantitativa ou rigorosa de "informação". Como uma caracterização muito mais precisa (mas ainda intuitiva) foi dada no parágrafo anterior, porém, há pouco problema com essa citação no contexto apropriado.

— whuber

Tem conexão com máxima verossimilhança e é essencialmente a informação necessária na máxima verossimilhança

— Kamster

Após os comentários de whuber e @Kamster, eu provavelmente entendi melhor. Quando dizemos que uma estatística suficiente contém todas as informações necessárias para calcular qualquer estimativa do parâmetro, na verdade queremos dizer que é suficiente calcular o estimador de probabilidade máxima (que é uma função de todas as estatísticas suficientes)? É verdade, o problema estava todo relacionado à (não) definição de "informação", como sugerido pela whuber, e minha pergunta foi respondida.

— Gcoll

Respostas:

Após os comentários de @whuber e @Kamster, eu provavelmente entendi melhor. Quando dizemos que uma estatística suficiente contém todas as informações necessárias para calcular qualquer estimativa do parâmetro, o que realmente queremos dizer é que basta calcular o estimador de probabilidade máxima (que é uma função de todas as estatísticas suficientes).

Dado que estou respondendo à minha própria pergunta e, portanto, não tenho 100% de certeza da resposta, não a marcarei como correta até receber algum feedback. Por favor, adicione qualquer comentário e voto negativo se você acha que estou errado / impreciso / etc ...

(Deixe-me saber se isso não é compatível com a etiqueta SE, sendo esta minha primeira pergunta, imploro sua clemência se estou violando alguma regra)

— gcoll
fonte

Enquanto estudava suficiência, deparei-me com a sua pergunta, porque também queria entender a intuição sobre o que reuni. É o que proponho.

Seja uma amostra aleatória de uma distribuição de Poisson com média . $X_1,\ldots,X_n$ $\theta>0$

Sabemos que é uma estatística suficiente para , já que a distribuição condicional de dada é livre de , em outras palavras, não depende de . $T({\bf{X}})=\sum_{i=1}^{n} X_i$ $\theta$ $X_1,\ldots,X_n$ $T({\bf{X}})$ $\theta$ $\theta$

Agora, o estatístico sabe que e cria $A$ $X_1,\ldots,X_n \overset{i.i.d}{\sim} Poisson(4)$ $n=400$ valores aleatórios deste distribuição:

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Para os valores que o estatístico criou, ele pega a soma e pergunta ao estatístico $A$ o seguinte: $B$

"Eu tenho esses valores de amostra retirados de uma distribuição Poisson. Sabendo que , o que você pode me dizer sobre essa distribuição?" $x_1,\ldots,x_n$ $\sum_{i=1}^{n} x_i = y = 4068$

Portanto, sabendo apenas que (e o fato de a amostra ter surgido de uma distribuição de Poisson) é suficiente para o estatístico dizer alguma coisa sobre ? Como sabemos que esta é uma estatística suficiente, sabemos que a resposta é "sim". $\sum_{i=1}^{n} x_i = y = 4068$ $B$ $\theta$

Para obter alguma intuição sobre o significado disso, vamos fazer o seguinte (extraído de "Introduction to Mathematics Statistics" de Hogg & Mckean & Craig, 7ª edição, exercício 7.1.9):

$B$ $z_1,z_2,\ldots,z_n$ $x$ $Z_1,Z_2\ldots,Z_n$ $z_1,z_2,\ldots,z_n$ $\sum z_i = y$

\frac{\frac{θ^{z_{1}} e^{- θ}}{z_{1}!} \frac{θ^{z_{2}} e^{- θ}}{z_{2}!} \dots \frac{θ^{z_{n}} e^{- θ}}{z_{n}!}}{\frac{n θ^{y} e^{- n θ}}{y!}} = \frac{y!}{z_{1}! z_{2}! \dots z_{n}!} {(\frac{1}{n})}^{z_{1}} {(\frac{1}{n})}^{z_{2}} \dots {(\frac{1}{n})}^{z_{n}}

$\cfrac{\frac{\theta^{z_1}e^{-\theta}}{z_1!} \frac{\theta^{z_2}e^{-\theta}}{z_2!} \cdots \frac{\theta^{z_n}e^{-\theta}}{z_n!}}{\frac{n \theta^{y}e^{-n\theta}}{y!}}=\frac{y!}{z_1!z_2! \cdots z_n!} \left(\frac{1}{n}\right)^{z_1} \left(\frac{1}{n}\right)^{z_2} \cdots \left(\frac{1}{n}\right)^{z_n}$

since $Y=\sum Z_i$ has a Poisson distribution with mean $n \theta$ . The latter distribution is multinomial with $y$ independent trials, each terminating in one of $n$ mutually exclusive and exhaustive ways, each of which has the same probability $1/n$ . Accordingly, $B$ runs such a multinomial experiment $y$ independent trials and obtains $z_1,\ldots,z_n$ ."

This is what the exercise states. So, let's do exactly that:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

And let's see what $Z$ looks like (I'm also plotting the real density of Poisson(4) for $k=0,1,\ldots,13$ - anything above 13 is pratically zero -, for comparison):

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

So, knowing nothing about $\theta$ and knowing only the sufficient statistic $Y=\sum X_i$ we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as $n$ increases, the two curves become more similar).

Now, comparing $X$ and $Z|y$ :

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

We see that they are pretty similar, as well (as expected)

So, "for the purpose of making a statistical decision, we can ignore the individual random variables $X_i$ and base the decision entirely on the $Y=X_1+X_2+\cdots+X_n$ " (Ash, R. "Statistical Inference: A concise course", page 59).

— Gus_est
fonte

Let me give another perspective that may help. This is also qualitative, but there is a rigorous version of that particularly important in Information Theory - known as Markov property.

In the beginning, we have two objects, data (coming from a Random Variable, call it X) and parameter, $\theta$ (another rv, implicitly assumed since we are talking about its estimator). These two, are assumed to be dependent (otherwise, there is no point in trying to estimate one from the other). Now, the third object enters the game, Sufficient Statistic, T. The intuitive idea when we say T is enough to estimate $\theta$ really means that if we know T (ie conditioned on T), X provides no additional info, that is, X and $\theta$ are independent. In other word, knowledge of X is equivalent to knowledge of T as far as estimation of $\theta$ is concerned. Note that in probabilities are where all the uncertainties are captured, and hence "any estimate" when (conditional) probabilities are independent (eg conditional densities factorize).

— Mahdi
fonte