Qual é a melhor probabilidade máxima ou probabilidade marginal e por quê?

Ao executar a regressão, se seguirmos a definição de: Qual é a diferença entre uma probabilidade parcial, uma probabilidade de perfil e uma probabilidade marginal?

que, máxima verossimilhança
encontre β e θ que maximize L (β, θ | dados).

Enquanto, Probabilidade marginal
Nós integramos θ da equação de probabilidade explorando o fato de que podemos identificar a distribuição de probabilidade de θ condicional em β.

Qual é a melhor metodologia para maximizar e por quê?

regression maximum-likelihood

— Ankit Chiplunkar
fonte

Respostas:

Cada um deles dará resultados diferentes com uma interpretação diferente. O primeiro encontra o par , que é mais provável, enquanto o segundo encontra o que é (marginalmente) mais provável. Imagine que sua distribuição fique assim: $\beta$ $\theta$ $\beta$

$\beta=1$ $\beta=2$
$\theta=1$ 0.0 0.2
$\theta=2$ 0.1 0.2
$\theta=3$ 0.3 0.2

Então a resposta de máxima verossimilhança é ( ), enquanto a resposta de máxima verossimilhança marginal é (já que, marginalizando sobre , $\beta=1$ $\theta=3$ $\beta=2$ $\theta$ ). $P(\beta=2)=0.6$

Eu diria que, em geral, a probabilidade marginal geralmente é o que você deseja - se você realmente não se importa com os valores dos parâmetros , então você deve apenas colapsar sobre eles. Mas, provavelmente, na prática, esses métodos não produzirão resultados muito diferentes - se o fizerem, isso pode apontar para alguma instabilidade subjacente em sua solução, por exemplo, vários modos com diferentes combinações de , que fornecem previsões semelhantes. $\theta$ $\beta$ $\theta$

— Chris
fonte

Eu encontrei resultados diferentes para métodos de probabilidade máxima / marginal e, portanto, a questão. Eu diria que os dois resultados no meu caso fornecem interpretações diferentes, mas são possíveis.

— Ankit Chiplunkar

Estou lidando com essa pergunta agora mesmo. Aqui está um resultado que pode ser útil. Considere o modelo linear

y = X β + ϵ, ϵ \sim N (0, σ^{2})

$y = X\beta + \epsilon, \quad \epsilon \sim N(0,\sigma^2)$

onde e e $y \in \mathbb{R}^n, \beta \in \mathbb{R}^p,$ $\beta$ $\sigma^2$ são os parâmetros de interesse. A probabilidade conjunta é

L (β, σ^{2}) = (2 π σ^{2})^{- n / 2} e x p (- \frac{| | y - X β | |^{2}}{2 σ^{2}})

$L(\beta,\sigma^2) = (2 \pi \sigma^2)^{-n/2} exp\left(-\frac{||y-X\beta||^2}{2\sigma^2}\right)$

Otimizando os rendimentos da probabilidade conjunta

\hat{β} = X^{+} y

$\hat{\beta} = X^+ y$

{\hat{σ}}^{2} = \frac{1}{n} | | r | |^{2}

$\hat{\sigma}^2 = \frac{1}{n}||r||^2$

onde é a pseudo-inversa de e é o vector residual ajuste. Note-se que em temos em vez dos graus de liberdade familiares corrigido relação de $X^+$ $X$ $r=y-X\hat{\beta}$ $\hat{\sigma}^2$ $1/n$ . Sabe-se que esse estimador é enviesado no caso de amostra finita. $1/(n-p)$

Agora, suponha que, em vez de otimizar sobre e , integramos out e estimamos partir da probabilidade integrada resultante: $\beta$ $\sigma^2$ $\beta$ $\sigma^2$

{\hat{σ}}^{2} = {max}_{σ^{2}} \int_{R^{p}} L (β, σ^{2}) d β

$\hat{\sigma}^2 = \text{max}_{\sigma^2} \int_{\mathbb{R}^p} L(\beta,\sigma^2) d\beta$

Usando álgebra linear elementar e a fórmula integral gaussiana, você pode mostrar que

{\hat{σ}}^{2} = \frac{1}{n - p} | | r | |^{2}

$\hat{\sigma}^2 = \frac{1}{n-p} ||r||^2$

Isso tem a correção do grau de liberdade, o que a torna imparcial e geralmente favorecida em relação à estimativa conjunta de ML.

A partir desse resultado, pode-se perguntar se há algo inerentemente vantajoso na probabilidade integrada, mas não conheço nenhum resultado geral que responda a essa pergunta. O consenso parece ser que o ML integrado é melhor para explicar a incerteza na maioria dos problemas de estimativa. Em particular, se você estiver estimando uma quantidade que depende de outras estimativas de parâmetros (mesmo implicitamente), a integração sobre os outros parâmetros será mais responsável por suas incertezas.

— Paulo
fonte

Isto é interessante. Estou, no entanto, um pouco preocupado com o fato de que "integrar

" usa uma distribuição marginal inválida, bem como com a ausência de qualquer justificativa aparente para usar essa marginal (imprópria) em comparação com qualquer outra. Que pensamentos você tem sobre esses problemas?

β

$\beta$

— whuber

@whuber Compartilho suas preocupações e não tenho uma resposta pronta, mas observe que a probabilidade de ser marginalizado é apenas uma posterior com um uniforme impróprio antes de

, então acho que isso está relacionado à abordagem "objetiva bayesiana". Não se importa quando um parâmetro como

tem uma distribuição prévia inadequada, desde que o posterior seja integrável.

β

$\beta$

β

$\beta$

— Paul

Na verdade, com base neste post e comentários, acho que o ML integrado, e não o marginal, é o termo certo para o que estamos fazendo aqui. Editado de acordo.

— Paul

+1 Eu sei que estou muito atrasado para esta parte, mas não estou integrando efeitos fixos colocando um uniforme impróprio antes deles exatamente o que REML faz, então você acabou de obter a estimativa REML e essa correção df é exatamente a Por que o REML é melhor para amostras menores?

— JLD

@ Chaconne sim, este post foi motivado ao tentar entender o REML! Não tenho (quase) nenhum ensino formal de estatística, portanto derivar tudo isso era novo para mim.

— Paul

$\beta$ $\beta$ $\theta$ $\theta$ $\theta$ $\theta$ $\theta_i$ ponderados por sua densidade de probabilidade $p(\theta_i)$ . Agora isso $\theta$ desapareceu, usando amostras de treinamento como $data$ , você pode otimizar a probabilidade marginal wrt $\beta$ .

— Seeda
fonte