Família exponencial: estatísticas suficientes observadas vs. esperadas

Minha pergunta surge da leitura de "Estimating a Dirichlet Distribution" de Minka , que declara o seguinte sem provas no contexto de derivar um estimador de probabilidade máxima para uma distribuição de Dirichlet com base em observações de vetores aleatórios:

Como sempre com a família exponencial, quando o gradiente é zero, as estatísticas suficientes esperadas são iguais às estatísticas suficientes observadas.

Não vi uma estimativa de probabilidade máxima na família exponencial apresentada dessa maneira, nem encontrei explicações adequadas em minha pesquisa. Alguém pode oferecer informações sobre a relação entre estatísticas suficientes observadas e esperadas e talvez ajudar a entender a estimativa de probabilidade máxima como minimizando sua diferença?

— Ben Bray
fonte

Essa é uma afirmação usual sobre a família exponencial, mas na minha opinião, na maioria das vezes, é afirmada de uma maneira que pode confundir o leitor menos experiente. Como, tirada pelo valor de face, poderia ser interpretada como dizendo "se nossa variável aleatória segue uma distribuição na família exponencial, se coletarmos uma amostra e a inserirmos na estatística suficiente, obteremos o verdadeiro valor esperado da estatística. " Se assim fosse ... Mais do que isso, não leva em consideração o tamanho da amostra, o que pode causar mais confusão.

A função de densidade exponencial é

\begin{matrix} (1) & f_{X} (x) = h (x) e^{η (θ) T (x)} e^{- A (θ)} \end{matrix}

$f_X(x) = h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)} \tag{1}$

onde é a estatística suficiente. $T(x)$

Como essa é uma densidade, ela precisa se integrar à unidade, então ( é o suporte do ) $S_x$ $X$

\begin{matrix} (2) & \int_{S_{x}} h (x) e^{η (θ) T (x)} e^{- A (θ)} d x = 1 \end{matrix}

$\int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =1 \tag{2}$

Eq. vale para todos para que possamos diferenciar os dois lados em relação a ele: $(2)$ $\theta$

\begin{matrix} (3) & \frac{\partial}{\partial θ} \int_{S_{x}} h (x) e^{η (θ) T (x)} e^{- A (θ)} d x = \frac{\partial (1)}{\partial θ} = 0 \end{matrix}

$\frac {\partial}{\partial \theta} \int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =\frac {\partial (1)}{\partial \theta} =0 \tag{3}$

Intercambiando a ordem de diferenciação e integração, obtemos

\begin{matrix} (4) & \int_{S_{x}} \frac{\partial}{\partial θ} (h (x) e^{η (θ) T (x)} e^{- A (θ)}) d x = 0 \end{matrix}

$\int_{S_x} \frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right)dx =0 \tag{4}$

Realizando a diferenciação que temos

\begin{matrix} (5) & \frac{\partial}{\partial θ} (h (x) e^{η (θ) T (x)} e^{- A (θ)}) = f_{X} (x) [T (x) η^{'} (θ) - A^{'} (θ)] \end{matrix}

$\frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right) = f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big] \tag{5}$

Inserindo em obtemos $(5)$ $(4)$

\int_{S_{x}} f_{X} (x) [T (x) η^{'} (θ) - A^{'} (θ)] d x = 0

$\int_{S_x} f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big]dx =0$

\begin{matrix} (6) & \Rightarrow η^{'} (θ) E [T (X)] - A^{'} (θ) = 0 \Rightarrow E [T (X)] = \frac{A^{'} (θ)}{η^{'} (θ)} \end{matrix}

$\Rightarrow \eta'(\theta)E[T(X)] - A'(\theta) = 0 \Rightarrow E[T(X)] = \frac {A'(\theta)}{\eta'(\theta)} \tag{6}$

Agora perguntamos: o lado esquerdo de é um número real. Portanto, o lado direito também deve ser um número real, e não uma função . Portanto, ele deve ser avaliado em um específico , e deve ser o "true" ; caso contrário, no lado esquerdo, não teríamos o verdadeiro valor esperado de . Para enfatizar isso, denotamos o valor verdadeiro por e reescrevemos como $(6)$ $\theta$ $\theta$ $T(X)$ $\theta_0$ $(6)$

\begin{matrix} (6a) & E_{θ_{0}} [T (X)] = \frac{A^{'} (θ)}{η^{'} (θ)} |_{θ = θ_{0}} \end{matrix}

$E_{\theta_0}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\theta_0} \tag{6a}$

Passamos agora à estimativa de probabilidade máxima . A probabilidade de log para uma amostra de tamanho é $n$

L (θ ∣ x) = \sum_{i = 1}^{n} \ln h (x_{i}) + η (θ) \sum_{i = 1}^{n} T (x_{i}) - n A (θ)

$L(\theta \mid \mathbf x) = \sum_{i=1}^n\ln h(x_i) +\eta(\theta)\sum_{i=1}^nT(x_i) -nA(\theta)$

Definindo sua derivada em relação a igual a , obtemos o MLE $\theta$ $0$

\begin{matrix} (7) & \hat{θ} (x) : \frac{1}{n} \sum_{i = 1}^{n} T (x_{i}) = \frac{A^{'} (θ)}{η^{'} (θ)} |_{θ = \hat{θ} (x)} \end{matrix}

$\hat \theta(x) : \frac 1n\sum_{i=1}^nT(x_i) = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat \theta(x)} \tag {7}$

Compare com . Os lados direito não são iguais, pois não podemos argumentar que o estimador do MLE atingiu o valor verdadeiro. Assim também não são os lados esquerdo. Mas lembre-se dessa eq. vale para todos e, portanto, para também. Portanto, as etapas na eq. pode ser tomado em relação a e, assim, podemos escrever a eq. para : $(7)$ $(6a)$ $2$ $\theta$ $\hat \theta$ $3,4,5,6$ $\hat \theta$ $6a$ $\hat \theta$

\begin{matrix} (6b) & E_{\hat{θ} (x)} [T (X)] = \frac{A^{'} (θ)}{η^{'} (θ)} |_{θ = \hat{θ} (x)} \end{matrix}

$E_{\hat\theta(x)}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat\theta(x)} \tag{6b}$

que, combinado com , nos leva à relação válida $(7)$

E_{\hat{θ} (x)} [T (X)] = \frac{1}{n} \sum_{i = 1}^{n} T (x_{i})

$E_{\hat\theta(x)}[T(X)] = \frac 1n\sum_{i=1}^nT(x_i)$

que é o que a afirmação em análise realmente diz: o valor esperado da estatística suficiente sob o MLE para os parâmetros desconhecidos (em outras palavras, o valor do primeiro momento bruto da distribuição que obteremos se usarmos no lugar de ) é igual (e não é apenas aproximado por) à média da estatística suficiente, calculada a partir da amostra . $\hat \theta(x)$ $\theta$ $\mathbf x$

Além disso, somente se o tamanho da amostra for , poderíamos dizer com precisão: "o valor esperado da estatística suficiente no MLE é igual à estatística suficiente". $n=1$

— Alecos Papadopoulos
fonte

Você poderia explicar melhor por que a transição de 6a para 6b é válida, por favor?

— Theoden

@ Theoden Entre a eq. e escrevo "eq. vale para todos " - e, portanto, para também. Portanto, todas as etapas na eq. pode ser tomado em relação a . Repeti essa observação no texto para maior clareza.

(2)

$(2)$

(3)

$(3)$

(2)

$(2)$

θ

$\theta$

\hat{θ}

$\hat \theta$

3, 4, 5, 6

$3,4,5,6$

\hat{θ}

$\hat \theta$

— Alecos Papadopoulos

@AlecosPapadopoulos, sua prova abaixo parece sugerir que o que você diz no início - "se nossa variável aleatória segue uma distribuição na família exponencial, se coletarmos uma amostra e a inserirmos na estatística suficiente, obteremos o verdadeiro valor esperado da estatística "é verdadeira. Quero dizer, sempre posso fazer isso em (2), substituindo-o por stat suficiente observado e obtendo o resultado. O que estou perdendo aqui? Eu não entendo direito.

— user10024395

@ user136266 O verdadeiro valor esperado da estatística é e, para ser calculado, é necessário conhecer o parâmetro , por design desconhecido . Portanto, o que podemos realmente calcular é que é o valor esperado da estatística sob a suposição de que nossa estimativa pontual atingiu o valor real .

6 a

$6a$

θ

$\theta$

6 b

$6b$

— Alecos Papadopoulos

Você poderia explicar por que podemos trocar a ordem de diferenciação e integração na eq. (3) por favor?

— precisa saber é o seguinte