Estou lidando com essa pergunta agora mesmo. Aqui está um resultado que pode ser útil. Considere o modelo linear
y=Xβ+ϵ,ϵ∼N(0,σ2)
onde e β e σ 2y∈Rn,β∈Rp,βσ2 são os parâmetros de interesse. A probabilidade conjunta é
L(β,σ2)=(2πσ2)−n/2exp(−||y−Xβ||22σ2)
Otimizando os rendimentos da probabilidade conjunta
β^=X+y
σ^2=1n||r||2
onde é a pseudo-inversa de X e r = y - X β é o vector residual ajuste. Note-se que em σ 2 temos 1 / n em vez dos graus de liberdade familiares corrigido relação de 1 / ( n - pX+Xr=y−Xβ^σ^21/n . Sabe-se que esse estimador é enviesado no caso de amostra finita.1/(n−p)
Agora, suponha que, em vez de otimizar sobre e σ 2 , integramos β out e estimamos σ 2 a partir da probabilidade integrada resultante:βσ2βσ2
σ^2=maxσ2∫RpL(β,σ2)dβ
Usando álgebra linear elementar e a fórmula integral gaussiana, você pode mostrar que
σ^2=1n−p||r||2
Isso tem a correção do grau de liberdade, o que a torna imparcial e geralmente favorecida em relação à estimativa conjunta de ML.
A partir desse resultado, pode-se perguntar se há algo inerentemente vantajoso na probabilidade integrada, mas não conheço nenhum resultado geral que responda a essa pergunta. O consenso parece ser que o ML integrado é melhor para explicar a incerteza na maioria dos problemas de estimativa. Em particular, se você estiver estimando uma quantidade que depende de outras estimativas de parâmetros (mesmo implicitamente), a integração sobre os outros parâmetros será mais responsável por suas incertezas.