Por que o Jeffreys prior é útil?


Respostas:


30

Deixe-me completar a resposta do Zen. Não gosto muito da noção de "representar a ignorância". O importante não é o Jeffreys anterior, mas o Jeffreys posterior . Este posterior visa refletir o melhor possível as informações sobre os parâmetros trazidos pelos dados. A propriedade invariância é naturalmente necessária para os dois pontos a seguir. Considere, por exemplo, o modelo binomial com parâmetro de proporção desconhecida e parâmetro de chances .θψ=θ1θ

  1. O Jeffreys posterior em reflete da melhor maneira possível as informações sobre trazidas pelos dados. Existe uma correspondência individual entre e . Então, transformar o Jeffreys posterior em em posterior em (através da fórmula usual de mudança de variáveis) deve produzir uma distribuição que reflita o melhor possível as informações sobre . Portanto, essa distribuição deve ser a de Jeffreys posterior sobre . Esta é a propriedade invariância.θθθψθψψψ

  2. Um ponto importante ao tirar conclusões de uma análise estatística é a comunicação científica . Imagine que você entregue o Jeffreys on a um colega científico. Mas ele / ela está interessado em vez de . Então isso não é um problema com a propriedade invariância: ele apenas precisa aplicar a fórmula de mudança de variáveis.θψθ


Ah, isso esclarece um pouco as coisas. Mas existe uma boa razão intuitiva para que o posterior para o parâmetro de probabilidades deva ser o mesmo que o posterior para o parâmetro de proporção? Isso me parece pouco natural.
tskuzzy

Não é o mesmo ! Um é induzido pelo outro pela fórmula de mudança de variáveis. Há uma correspondência individual entre os dois parâmetros. Então a distribuição posterior em um desses parâmetros deve induzir a distribuição posterior no outro.
Stéphane Laurent

2
(+1) Stéphane. O OP parece ainda estar confuso quando ele diz "... deve ser o mesmo ...". Os dois posteriores não são "iguais", o que acontece é que, por exemplo, no exemplo de Stéphane, você tem que ; se você não tiver esse tipo de consistência usando anteriores padrões (calculados), eles serão um pouco malucos. P{1/3θ2/3X=x}=P{1/2ψ2X=x}
Zen

11
Eu acho que o que está faltando neste post é que, quando há muita informação nos dados sobre um parâmetro, o anterior específico usado realmente não importa. Por exemplo, uma proporção binomial, seja de uniforme, jeffreys ou haldane anterior, faz muito pouca diferença, a menos que a posterior seja muito ampla. Nesse caso, é um pouco um argumento acadêmico sobre qual prior é "certo", porque nenhuma conclusão significativa pode ser tirada de qualquer maneira. O valor real de um prior não informativo está em várias dimensões, mas esse problema não foi resolvido - Jeffreys prior é ruim aqui.
probabilityislogic

3
Essa teoria é incompleta e depende da ordem dos parâmetros, da escolha da região compacta e da função de probabilidade. Portanto, não obedece ao princípio da probabilidade, por exemplo. Além disso, é difícil aplicar a dados não independentes. Além disso, a teoria de Bernardo está completa apenas para problemas de parâmetros 1-d. É provavelmente o melhor método disponível atualmente. Um bom concorrente é a abordagem do grupo de transformação de Jaynes.
probabilityislogic

41

Suponha que você e um amigo estejam analisando o mesmo conjunto de dados usando um modelo normal. Você adota a parametrização usual do modelo normal usando a média e a variação como parâmetros, mas seu amigo prefere parametrizar o modelo normal com o coeficiente de variação e a precisão como parâmetros (o que é perfeitamente "legal"). Se vocês usarem os antecedentes de Jeffreys, sua distribuição posterior será a distribuição posterior de seu amigo, transformada adequadamente da parametrização dele para a sua. É nesse sentido que o prior de Jeffreys é "invariável"

(A propósito, "invariante" é uma palavra horrível; o que realmente queremos dizer é que é "covariante" no mesmo sentido de cálculo de tensores / geometria diferencial, mas, é claro, esse termo já tem um significado probabilístico bem estabelecido, então não podemos usá-lo.)

Por que essa propriedade de consistência é desejada? Porque, se o prior de Jeffreys tem alguma chance de representar ignorância sobre o valor dos parâmetros em um sentido absoluto (na verdade, isso não ocorre, mas por outras razões não relacionadas à "invariância") e não à ignorância em relação a uma parametrização específica do modelo, deve ser o caso em que, independentemente de quais parametrizações escolhemos arbitrariamente começar, nossos posteriores devem "corresponder" após a transformação.

O próprio Jeffreys violou essa propriedade de "invariância" rotineiramente ao construir seus anteriores.

Este artigo tem algumas discussões interessantes sobre esse assunto e assuntos relacionados.


11
+1: boa resposta. Mas, por que o prior de Jeffreys não representa ignorância sobre o valor dos parâmetros?
Neil G

4
Porque nem é uma distribuição. É paradoxal afirmar que uma distribuição reflete ignorância. Uma distribuição sempre reflete informações.
Stéphane Laurent


@ StéphaneLaurent: É preciso ter alguma crença mesmo em um estado de total ignorância. Qualquer que seja o seu posterior, menos a probabilidade induzida pelos seus dados é a crença de que você está assumindo nesse estado de ignorância. O princípio intuitivo que deve ser respeitado ao decidir essa crença é que ela deve ser invariável sob alterações de rótulos (incluindo reparametrização). Não tenho certeza, mas acho que apenas esse princípio (em todas as suas possíveis interpretações - entropia máxima, reparametrização invariável etc.) sempre decide a crença.
Neil G

Portanto, quando se diz "uma distribuição reflete ignorância", significa que a distribuição está de acordo com esse princípio.
Neil G

12

Para acrescentar algumas citações à grande resposta de Zen: Segundo Jaynes, o prior de Jeffreys é um exemplo do princípio dos grupos de transformação, que resulta do princípio da indiferença:

A essência do princípio é justa: (1) reconhecemos que uma atribuição de probabilidade é um meio de descrever um certo estado de conhecimento. (2) Se a evidência disponível não nos dá razão para considerar a proposição mais ou menos provável que , a única maneira honesta de descrever esse estado de conhecimento é atribuir a eles probabilidades iguais: . Qualquer outro procedimento seria inconsistente no sentido de que, por um mero intercâmbio de rótulos , poderíamos gerar um novo problema no qual nosso estado de conhecimento é o mesmo, mas no qual estamos atribuindo probabilidades diferentes ...A1A2p1=p2(1,2)

Agora, para responder à sua pergunta: "Por que você não gostaria que o anterior fosse alterado sob uma alteração de variáveis?"

Segundo Jaynes, a parametrização é outro tipo de rótulo arbitrário, e não se deve ser capaz de “por um simples intercâmbio de rótulos gerar um novo problema no qual nosso estado de conhecimento é o mesmo, mas no qual estamos atribuindo probabilidades diferentes. "


2
Jaynes parece um pouco místico para mim.
Stéphane Laurent


2
Xian recebeu um e-mail elogiando Jaynes: ceremade.dauphine.fr/~xian/critic.html É uma pena que você não leia francês, esse e-mail é assustador e engraçado. O escritor parece ter enlouquecido pensando demais em estatísticas bayesianas;)
Stéphane Laurent

11
@ StéphaneLaurent: Lendo agora. Isso é absolutamente correto: "si vous affirmez na página 508" a repetibilidade da maioria das experiências "à quoi bon ensuite" à procura de procedimentos feministas ótimos "na página 512? Se você encontrar problemas na peuvent, não procure outros procedimentos, comente "choix bayésien", qual é o seu paradigma para todos os problemas infecciosos, além do que você pensa, sobre o que é uma reconciliação com o principal (p. 517-518)? pour toute qu'une probabilité n'est jamais une fréquence! "
Neil G

11
Além disso: "O Princípio da Máxima Entropia é o mais absoluto interesse público, desde que seja necessário e suficiente para responder a casos de casos e objetos que considere equivalentes a obter em casos com significado significativo de probabilidade a priori. Quand on sait qu'il permet ensuite unifier Théorie de l'Information, Mecanique Statistique, Thermodynamique ... "também descreve minha posição. Contudo, diferentemente do escritor, não tenho interesse em dedicar horas a convencer os outros a aceitar o que considero tão natural.
Neil G

4

Enquanto muitas vezes de interesse, se apenas para definir uma referência anterior contra a qual a medir outros antecedentes, antecedentes Jeffreys pode ser completamente inútil como por exemplo quando eles conduzir a posteriors impróprios: este é por exemplo o caso com o simples de dois componentes de Gauss mistura com todos os parâmetros desconhecidos. Nesse caso, o posterior do Jeffreys anterior não existe, não importa quantas observações estejam disponíveis. (A prova está disponível em um artigo recente que escrevi com Clara Grazian.)

pN(μ0,σ02)+(1p)N(μ1,σ12)

-2

Jeffreys anterior é inútil . Isto é porque:

  1. Apenas especifica a forma da distribuição; não diz quais devem ser seus parâmetros.
  2. Você nunca é completamente ignorante - sempre há algo sobre o parâmetro que você conhece (por exemplo, geralmente não pode ser infinito). Use-o para sua inferência, definindo uma distribuição anterior. Não minta para si mesmo dizendo que não sabe de nada.
  3. "Invariância em transformação" não é uma propriedade desejável. Sua probabilidade muda sob transformação (por exemplo, pelo jacobiano). Isso não cria "novos problemas", acompanha Jaynes. Por que o prior não deveria ser tratado da mesma forma?

Só não use.


11
Eh? A probabilidade não é uma densidade e não mudará sob reparametrização
innisfree 18/01
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.