Muito boa pergunta! Realmente faria sentido que uma distribuição prévia "boa" dê probabilidade positiva ou valor de densidade positivo ao parâmetro "verdadeiro" , mas, de uma perspectiva puramente decisória, isso não precisa ser o caso. Um contra-exemplo simples para essa "intuição" de que deve ser necessário, quando for a densidade anterior e for o valor "true" do parâmetro, é o brilhante resultado de minimaxidade de Casella e Strawderman (1981): ao estimar uma média normal base em uma única observação com a restrição adicional de que , π ( θ 0 ) > 0 π ( ⋅ ) θ 0 μ x ∼ N ( μ , 1 ) | u | < ρ ρ ρ ≤ 1,0567 { - ρ , ρ } π - ρ ρ μ π ( θ ) = 1θ0
π(θ0)>0
π(⋅)θ0μx∼N(μ,1)|μ|<ρρé pequeno o suficiente, especificamente, o estimador minimax corresponde a um uniforme (menos favorável) antes de , o que significa que dá peso igual a e ( e nenhum para qualquer outro valor da média )
Quando aumenta o menos favorável, antes seu apoio cresce, mas permanece um conjunto finito de valores possíveis. No entanto, a expectativa posterior, , pode assumir qualquer valor em .
ρ≤1.0567{−ρ,ρ}π−ρρμπ(θ)=12δ−ρ(θ)+12δρ(θ)
ρE[μ|x](−ρ,ρ)
O cerne da discussão (ver comentários) pode ser que, se o estimador de Bayes fosse limitado a ser um ponto no suporte de
, suas propriedades seriam bem diferentes.π(⋅)
Da mesma forma, ao considerar estimadores admissíveis, os estimadores de Bayes associados a um prévio adequado em um conjunto compacto geralmente são admissíveis, embora tenham um suporte restrito.
Em ambos os casos, a noção frequentista (minimaxidade ou admissibilidade) é definida sobre o intervalo possível de parâmetros, e não no valor "verdadeiro" do parâmetro (o que traz uma resposta à pergunta 4.) Por exemplo, olhando para o risco posterior
ou sob o risco de Bayes
não envolve o valor verdadeiro .
∫ΘL(θ,δ)π(θ|x)dθ
∫X∫ΘL(θ,δ)π(θ)f(x|θ)dθdx
θ0
Além disso, como apontado no exemplo acima, quando o estimador de Bayes é definido por uma expressão formal como a média posterior
para a perda quadrática (ou ), esse estimador pode levar valores fora do suporte de nos casos em que esse suporte não é convexo.L2π
θ^π(x)=∫Θθπ(θ|x)dθ
L2π
Como um aparte, ao ler
para que o θ verdadeiro tenha gerado os dados (ou seja, "exista"), θ deve ser uma variável possível em π, por exemplo, ter probabilidade diferente de zero, densidade diferente de zero
Considero uma deturpação do significado de um prior. A distribuição anterior não deve representar um mecanismo físico (ou real) real que viu um valor de parâmetro gerado a partir de seguido de uma observação gerada a partir de . O prior é uma medida de referência no espaço do parâmetro que incorpora informações anteriores e crenças subjetivas sobre o parâmetro e que não é de forma alguma exclusivo. Uma análise bayesiana é sempre relativa ao anterior escolhido para conduzir essa análise bayesiana. Portanto, não há uma necessidade absoluta de que o parâmetro true pertença ao suporte de . Obviamente, quando esse suporte é um conjunto conectado compacto, π x f ( x | θ 0 ) π A A θ πθ0πxf(x|θ0)πA, qualquer valor do parâmetro fora do conjunto não pode ser constantemente estimado pela média posterior mas isso nem impede que o estimador seja admissível.Aθ^π