O que é identificabilidade do modelo?

Eu sei que com um modelo que não é identificável, pode-se dizer que os dados são gerados por várias atribuições diferentes aos parâmetros do modelo. Eu sei que às vezes é possível restringir parâmetros para que todos sejam identificáveis, como no exemplo em Cassella & Berger 2nd ed, seção 11.2.

Dado um modelo específico, como posso avaliar se é identificável ou não?

identifiability

— Jack Tanner
fonte

Respostas:

Para identificação , estamos falando de um parâmetro (que pode ser um vetor), que varia em um espaço de parâmetros , e de uma família de distribuições (para simplificar, pense em PDFs) indexadas por que normalmente escrevemos algo como . Por exemplo, poderia ser e poderia ser $\theta$ $\Theta$ $\theta$ $\{ f_{\theta}|\, \theta \in \Theta\}$ $\theta$ $\theta = \beta$ $f$

f_{θ} (x) = \frac{1}{β} e^{- x / β}, x > 0, β > 0,

$f_{\theta}(x) = \frac{1}{\beta}\mathrm{e}^{-x/\beta}, \ x>0,\ \beta >0,$ que significa que . Para que o modelo seja identificável, a transformação que mapeia para deve ser individual . Dado um modelo em seu colo, a maneira mais direta de verificar isso é começar com a equação (essa igualdade deve conter (quase) todo em o suporte ) e tentar usar a álgebra (ou algum outro argumento) para mostrar que essa equação implica que, de fato, .

Θ = (0, \infty)

$\Theta = (0,\infty)$

θ

$\theta$

f_{θ}

$f_{\theta}$

f_{θ_{1}} = f_{θ_{2}}

$f_{\theta_{1}} = f_{\theta_{2}}$

x

$x$

θ_{1} = θ_{2}

$\theta_{1} = \theta_{2}$

Se você tiver sucesso com esse plano, seu modelo é identificável; continue com o seu negócio. Caso contrário, seu modelo não é identificável ou você precisa encontrar outro argumento. A intuição é a mesma, independentemente: em um modelo identificável, é impossível para dois parâmetros distintos (que poderiam ser vetores) dar origem à mesma função de probabilidade.

Isso faz sentido, porque, se, para dados fixos, dois parâmetros únicos deram origem à mesma probabilidade, seria impossível distinguir entre os dois parâmetros candidatos com base apenas nos dados. Seria impossível identificar o parâmetro true, nesse caso.

Para o exemplo acima, a equação é para (quase) todos os . Se pegarmos logs de ambos os lados, obteremos para , que implica a função linear é (quase) idêntico a zero. A única linha que faz isso é a que tem inclinação 0 e interceptação em y zero. Espero que você possa ver o resto. $f_{\theta_{1}} = f_{\theta_{2}}$

\frac{1}{β_{1}} e^{- x / β_{1}} = \frac{1}{β_{2}} e^{- x / β_{2}},

$\frac{1}{\beta_{1}}\mathrm{e}^{-x/\beta_{1}} = \frac{1}{\beta_{2}}\mathrm{e}^{-x/\beta_{2}},$

x > 0

$x > 0$

- \ln β_{1} - \frac{x}{β_{1}} = - \ln β_{2} - \frac{x}{β_{2}}

$-\ln\,\beta_{1} - \frac{x}{\beta_{1}} = -\ln\,\beta_{2} - \frac{x}{\beta_{2}}$

x > 0

$x > 0$

- (\frac{1}{β_{1}} - \frac{1}{β_{2}}) x - (\ln β_{1} - \ln β_{2})

$-\left(\frac{1}{\beta_{1}} - \frac{1}{\beta_{2}}\right)x - (\ln\,\beta_{1} - \ln\,\beta_{2})$

A propósito, se você pode ver, olhando para o seu modelo, que ele não é identificável (às vezes é possível), é comum introduzir restrições adicionais para torná-lo identificável (como você mencionou). Isso é semelhante ao reconhecimento de que a função não é um para um para em , mas é um para um se restringirmos a mentir interior . Em modelos mais complicados, as equações são mais difíceis, mas a ideia é a mesma. $f(y) = y^{2}$ $y$ $[-1,1]$ $y$ $[0,1]$

(+1) Explicação agradável, abrangente e prática. As analogias que você faz tornam os conceitos claros.

— cardeal

Você certamente respondeu à pergunta que fiz, mas sou novato demais para realmente entender sua resposta. Se você souber de uma explicação que seja melhor para um iniciante, entre em contato.

— Jack Tanner

@ cardinal, obrigado. Para Jack, tudo bem, entendo. Que tal isso: se há algo acima que ainda não está claro, e se você me indicar, então eu posso tentar aprofundar um pouco mais. Ou, se preferir, você pode escrever outra pergunta que exija uma explicação "leiga" ou exemplos dessas idéias. Eu acho que é justo dizer que a identificabilidade é um tópico que geralmente surge após o período introdutório típico do estudo, portanto, se você quiser fornecer um contexto do motivo pelo qual está enfrentando isso agora, isso poderá ajudar respondentes em potencial.

+1, boa resposta. Vale a pena apontar que um exemplo clássico e fácil de ver de um modelo não identificável é a versão irrestrita da ANOVA: Para remediar isso, a codificação celular de referência é normalmente usado, em que a média de um nível é definida como a referência (estimada pela interceptação) e a média geral não é explicitamente estimada.

y_{i j} = μ + α_{1} + α_{2} + \dots + α_{k} + ε_{i}

$y_{ij}=\mu+\alpha_1+\alpha_2+\ldots+\alpha_k+\varepsilon_i$

— gung - Restabelece Monica

Uma maneira é inspecionar a matriz de covariância, , das suas estimativas de parâmetros. Se duas estimativas de parâmetros estiverem perfeitamente (aproximadamente) correlacionadas entre si ou se uma estimativa de parâmetros for uma combinação (aproximadamente) linear de várias outras, seu modelo não será identificado; os parâmetros que são funções dos outros não são necessários. Em cada um desses casos, também será (aproximadamente) singular. Portanto, se for aproximadamente singular, isso pode lhe dar um motivo para se preocupar com problemas de identificação. (Embora eu ache que isso não detectaria relacionamentos não lineares entre as estimativas de parâmetros que dariam origem à não identificabilidade). $\Sigma$ $\Sigma$ $\Sigma$

O problema prático é que geralmente é difícil calcular para modelos até levemente complicados. $\Sigma$

Se você está enfrentando um problema de máxima verossimilhança, sabe que a matriz de covariância assintótica de suas estimativas é igual ao inverso das informações de fisher avaliadas no MLE. Portanto, verificar a matriz de informações dos pescadores quanto à singularidade (aproximada) também é uma maneira razoável de avaliar a identificabilidade. Isso também funciona onde a informação teórica do pescador é difícil de calcular, porque muitas vezes é possível aproximar numericamente com precisão um estimador consistente da matriz de informações do pescador, por exemplo, estimando o produto externo esperado da função de pontuação pelo produto externo médio observado .

Se você não estiver enfrentando um problema de ML, poderá obter um controle sobre simulando dados do modelo e estimando parâmetros muitas vezes e calculando uma matriz de covariância de amostra. $\Sigma$

— Macro
fonte

(+1) Muito bem. Eu nem tinha pensado em abordar essa questão dessa direção.

Uma razão pela qual a idéia sobre o cálculo de uma matriz de covariância com base em dados simulados é especialmente interessante: é preciso simular os dados de qualquer maneira para fazer uma verificação de Cook-Gelman-Rubin .

— Jack Tanner #