Estimador de probabilidade máxima de distribuição conjunta, considerando apenas contagens marginais

Seja $p_{x,y}$ uma distribuição conjunta de duas variáveis categóricas $X,Y$ , com $x,y\in\{1,\ldots,K\}$ . Digamos que $n$ amostras foram retiradas dessa distribuição, mas recebemos apenas as contagens marginais, ou seja, para $j=1,\ldots,K$ :

S_{j} = \sum_{i = 1}^{n} δ (X_{i} = l), T_{j} = \sum_{i = 1}^{n} δ (Y_{i} = j),

$S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)},$

Qual é o estimador de máxima verossimilhança para $p_{x,y}$ , dado $S_j,T_j$ ? Isso é conhecido? Computacionalmente viável? Existem outras abordagens razoáveis para esse problema além de ML?

— RS
fonte

As margens realmente não contêm informações * sobre a distribuição conjunta (de fato, este é o objetivo das cópulas).

$\:$ * ou pelo menos quase nenhuma - obviamente as margens contêm pelo menos algumas informações, uma vez que as contagens internas não podem exceder as margens em que ocorrem. Você tem uma distribuição conjunta específica em mente? Por que você usou a maximum-entropytag? Você está buscando uma solução de entropia máxima?

— Glen_b -Reinstala Monica 29/11

Eu não estou muito familiarizado com cópulas. Eles também se aplicam ao caso categórico? O que isso significa - que toda distribuição conjunta com as mesmas margens teria a mesma probabilidade? (Marquei entropia máxima porque achei que poderia ser relevante.) #

— 292 RS RS:

Ainda não temos um modelo de distribuição especificado, portanto, não estamos realmente em posição de calcular

P (x | θ)

$P(x|\theta)$ . Existem inúmeras possibilidades aqui. Existem cópulas para o caso categórico ordenado (se não único), mas meu objetivo ao levantá-lo foi motivar por que os marginais não eram muito informativos em geral. Em relação ao caso de contagem categórica, Fisher tratou as margens como não informativas sobre a articulação, daí o teste exato de Fisher-Irwin. Se você quiser máxima entropia, você provavelmente pode obter uma solução entropia máxima, mas eu não sei se ele vai ser muito informativo sobre ...

— Glen_b -Reinstate Monica

(ctd) ... estrutura. Nos casos de EM ou ML, acho que primeiro você precisará de algum tipo de modelo, seja multinomial bivariado, hipergeométrico bivariado ou algo com mais estrutura. Veja esta pergunta , onde o autor coloca uma referência em uma resposta. Isso pode ser útil.

— Glen_b -Reinstala Monica 29/11

Eu quis dizer uma distribuição multinomial bivariada geral. A pergunta fala sobre o caso em que as somas da distribuição são dadas e vemos amostras da distribuição conjunta. Aqui temos as somas da amostra. Eu acho que o problema está bem definido no caso do ML (a solução pode não ser única, mas eu não sei).

— RS

Respostas:

Esse tipo de problema foi estudado no artigo "Aumento de dados em tabelas de contingência de múltiplas vias com totais marginais fixos", de Dobra et al (2006). Seja denotar os parâmetros do modelo, seja a tabela de números inteiros não observados para cada par e seja o conjunto de tabelas inteiras cujas contagens marginais sejam iguais . Então a probabilidade de observar as contagens marginais é: $\theta$ $\mathbf{n}$ $(x,y)$ $C(S,T)$ $(S,T)$ $(S,T)$ onde é a distribuição de amostragem multinomial. Isso define a função de probabilidade para ML, mas a avaliação direta é inviável, exceto para pequenos problemas. A abordagem que eles recomendam é o MCMC, onde você atualiza alternadamente e

p (S, T | θ) = \sum_{n \in C (S, T)} p (n | θ)

$p(S,T | \theta) = \sum_{\mathbf{n} \in C(S,T)} p(\mathbf{n} | \theta)$

p (n | θ)

$p(\mathbf{n} | \theta)$

n

$\mathbf{n}$

θ

$\theta$ amostrando a partir de uma distribuição da proposta e aceitando a alteração de acordo com a taxa de aceitação Metropolis-Hastings. Isso pode ser adaptado para encontrar um máximo aproximado de

usando o Monte Carlo EM.

θ

$\theta$

Uma abordagem diferente usaria métodos variacionais para aproximar a soma sobre . As restrições marginais podem ser codificadas como um gráfico de fatores e a inferência sobre pode ser realizada usando a Propagação de Expectativas. $\mathbf{n}$ $\theta$

Para ver por que esse problema é difícil e não admite uma solução trivial, considere o caso . Tomando como a linha soma e como a coluna soma, existem duas tabelas de contagens possíveis: $S=(1,2), T=(2,1)$ $S$ $T$ Por conseguinte, a função de probabilidade é A MLE para este problema é

[\begin{matrix} 0 & 1 \\ 2 & 0 \end{matrix}] [\begin{matrix} 1 & 0 \\ 1 & 1 \end{matrix}]

$\begin{bmatrix} 0 & 1 \\ 2 & 0 \end{bmatrix} \qquad \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}$

p (S, T | θ) = 3 p_{12} p_{21}^{2} + 6 p_{11} p_{21} p_{22}

$p(S,T|\theta) = 3 p_{12} p_{21}^2 + 6 p_{11} p_{21} p_{22}$

{\hat{p}}_{x, y} = [\begin{matrix} 0 & 1 / 3 \\ 2 / 3 & 0 \end{matrix}]

$\hat{p}_{x,y} = \begin{bmatrix} 0 & 1/3 \\ 2/3 & 0 \end{bmatrix}$ o que corresponde a assumir a tabela à esquerda. Por outro lado, a estimativa de que você teria ao assumir a independência é

que tem um valor de probabilidade menor.

q_{x, y} = [\begin{matrix} 1 / 3 \\ 2 / 3 \end{matrix}] [\begin{matrix} 2 / 3 & 1 / 3 \end{matrix}] = [\begin{matrix} 2 / 9 & 1 / 9 \\ 4 / 9 & 2 / 9 \end{matrix}]

$q_{x,y} = \begin{bmatrix} 1/3 \\ 2/3 \end{bmatrix} \begin{bmatrix} 2/3 & 1/3 \end{bmatrix} = \begin{bmatrix} 2/9 & 1/9 \\ 4/9 & 2/9 \end{bmatrix}$

— Tom Minka
fonte

Não é possível obter uma solução analítica?

— Ben Kuhn

Obrigado! O artigo parece relevante, embora pareça ser da perspectiva bayesiana. E o caso específico em que

é de fato a própria distribuição, ou seja,

, para todos os pares

? Suspeitaria que haveria uma solução analítica neste caso?

θ

$\theta$

θ = {θ_{x, y}}

$\theta=\{\theta_{x,y}\}$

(x, y)

$(x,y)$

— RS

Eu não suspeitaria que houvesse uma solução analítica. Eu adicionei um exemplo para ilustrar isso.

— 21415 Tomorrowland

Obrigado. Talvez seja verdade assintoticamente? Então, o condicionamento nos totais de margem é o mesmo que o condicionamento nas distribuições de margem (após a normalização), e a probabilidade de log para cada tabela inteira não observada é proporcional à sua entropia. Talvez algo com AEP então?

— RS

Como foi apontado por @Glen_b, isso não é especificado adequadamente. Eu não acho que você possa usar a máxima probabilidade, a menos que possa especificar completamente a probabilidade.

Se você estava disposto a assumir a independência, então o problema é bastante simples (aliás, acho que a solução seria a solução de entropia máxima sugerida). Se você não está disposto nem é capaz de impor uma estrutura adicional ao seu problema e ainda deseja algum tipo de aproximação aos valores das células, pode ser que você possa usar os limites da cópula de Fréchet – Hoeffding . Sem suposições adicionais, não acho que você possa ir mais longe.

— F. Tusell
fonte

A probabilidade disso pode ser multinomial. Por que isso é insuficiente?

— RS

Pelo que entendi, a probabilidade é uma função dos parâmetros dados os dados. Aqui, você não possui valores para cada célula, apenas os marginais; portanto, você não possui uma única função dos parâmetros que você pode calcular, e muito menos maximizar. Em geral, existem muitas configurações de células compatíveis com as margens, e cada uma daria uma probabilidade diferente.

— F. Tusell

Yeah, but that's OK. The parameters are

p

$p$ , the data are the marginals. I can still compute the probability of the marginals given

p

$p$ - it's the sum over all the probabilities of cell configurations that give the marginals. That's a single function I can maximize.

— R S

Edit: This answer is based on an incorrect assumption that likelihood of the marginal counts given $p_{x,y}$ is only a function of the marginal probabilities $p_x = \sum_y p_{x,y}$ and $p_y = \sum_x p_{x,y}$ . I'm still thinking about it.

Wrong stuff follows:

As mentioned in a comment, the problem with finding "the" maximum-likelihood estimator for $p_{x, y}$ is that it's not unique. For instance, consider the case with binary $X, Y$ and marginals $S_1 = S_2 = T_1 = T_2 = 10$ . The two estimators

p = (\begin{array}{cc} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \end{array}), p = (\begin{array}{cc} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4} \end{array})

$p = \left(\begin{array}{cc} \frac12 & 0 \\ 0 & \frac12\end{array}\right), \qquad p = \left(\begin{array}{cc} \frac14 & \frac14 \\ \frac14 & \frac14\end{array}\right)$

have the same marginal probabilities $p_x$ and $p_y$ in all cases, and hence have equal likelihoods (both of which maximize the likelihood function, as you can verify).

Indeed, no matter what the marginals are (as long as two of them are nonzero in each dimension), the maximum likelihood solution is not unique. I'll prove this for the binary case. Let $p = \left(\begin{array}{cc}a & b \\ c & d\end{array}\right)$ be a maximum-likelihood solution. Without loss of generality suppose $0 < a \le d$ . Then $p = \left(\begin{array}{cc}0 & b + a \\ c + a & d - a\end{array}\right)$ has the same marginals and is thus also a maximum-likelihood solution.

If you want to additionally apply a maximum-entropy constraint, then you do get a unique solution, which as F. Tussell stated is the solution in which $X, Y$ are independent. You can see this as follows:

The entropy of the distribution is $H(p) = -\sum_{x,y} p_{x,y} \log p_{x,y}$ ; maximizing subject to $\sum_x p_{x,y} = p_y$ and $\sum_{y} p_{x,y} = p_x$ (equivalently, $\vec g(p) = 0$ where $g_x(p) = \sum_y p_{x,y} - p_x$ and $g_y(p) = \sum_x p_{x,y} - p_y$ ) using Lagrange multipliers gives the equation:

\nabla H (p) = \sum_{k \in X \cup Y} λ_{k} \nabla g_{k} (p)

$\nabla H(p) = \sum_{ k \in X \cup Y} \lambda_k \nabla g_k(p)$

All the gradients of each $g_k$ are 1, so coordinate-wise this works out to

1 - \log p_{x, y} = λ_{x} + λ_{y} ⟹ p_{x, y} = e^{1 - λ_{x} - λ_{y}}

$1 - \log p_{x,y} = \lambda_x + \lambda_y \implies p_{x,y} = e^{1-\lambda_x-\lambda_y}$

plus the original constraints $\sum_x p_{x,y} = p_y$ and $\sum_{y} p_{x,y} = p_x$ . You can verify that this is satisfied when $e^{1/2 - \lambda_x} = p_x$ and $e^{1/2 - \lambda_y} = p_y$ , giving

p_{x, y} = p_{x} p_{y} .

$p_{x,y} = p_xp_y.$

— Ben Kuhn
fonte

For the first example: What is given is the marginal counts, not the marginal probabilities. In the case you've described, the probability of

S_{1} = S_{2} = T_{1} = T_{2} = 10

$S_1=S_2=T_1=T_2=10$ for the left

p

$p$ is the probability of

[[10, 0], [0, 10]]

$[[10,0],[0,10]]$ which is

2^{- 20}

$2^{-20}$ . For the right

p

$p$ , it is

\sum_{0 \leq a \leq 10} P r [[a, 10 - a], [10 - a, a]]

$\sum_{0\le a \le 10}{Pr[[a,10-a],[10-a,a]]}$ , which is

10 \cdot 4^{- 20}

$10\cdot 4^{-20}$ . Even if there is no unique solution, it doesn't mean we can't point to some solution. Maximum entropy gives a unique solution, but it might not be maximum likelihood.

— R S

You've calculated the probabilities incorrectly; for instance, you forgot to include the binomial coefficients. But you're right in that the two matrices give different joint distributions of marginal counts even though they give the same marginal distribution of marginal counts. (Yikes!) I'll think about this more.

— Ben Kuhn