[Aqui está um trecho do meu próprio livro, The Bayesian Choice (2007) , que argumenta a favor de uma abordagem teórica da decisão à análise bayesiana e, portanto, do uso do risco Bayes.]
Exceto pelas configurações mais triviais, geralmente é impossível minimizar uniformemente (em ) a função de perda quando é desconhecido. Para derivar um critério de comparação eficaz da função de perda, a abordagem frequentista propõe considerar, em vez disso, a perda média (ou risco freqüentista )
que é a regra de decisão, ou seja, a alocação de uma decisão para cada resultadodL(θ,d)θ
R(θ,δ)==Eθ[L(θ,δ(x))]∫XL(θ,δ(x))f(x|θ)dx,
δ(x)x∼f(x|θ) do experimento aleatório.
A função , de em , é geralmente chamada estimador (enquanto o valor é chamado estimativa de ). Quando não há risco de confusão, também denotamos o conjunto de estimadores por .δXDδ(x)θD
O paradigma frequentista baseia-se neste critério para comparar estimadores e, se possível, para selecionar o melhor estimador, com o raciocínio de que os estimadores são avaliados em seu desempenho de longo prazo para todos os valores possíveis do parâmetro . Observe, no entanto, que existem várias dificuldades associadas a essa abordagem.θ
- O erro (perda) é calculado sobre os diferentes valores de
proporcionalmente à densidade . Portanto, parece que a observação não é mais levada em consideração. O critério de risco avalia os procedimentos quanto ao desempenho a longo prazo e não diretamente para a observação fornecida, . Essa avaliação pode ser satisfatória para o estatístico, mas não é tão atraente para um cliente, que deseja ótimos resultados para seus dados , e não para os de outros!xf(x|θ)xxx
- A análise freqüentista do problema de decisão pressupõe implicitamente que esse problema será enfrentado repetidamente, para que a avaliação da frequência faça sentido. De fato, é aproximadamente a perda média em relação às repetições anteriores do mesmo experimento, de acordo com a Lei dos Grandes Números. No entanto, por motivos filosóficos e práticos, há muita controvérsia sobre a própria noção de repetibilidade de experimentos (ver Jeffreys (1961)). Por um lado, se novas observações chegarem ao estatístico, ela deve fazer uso delas, e isso pode modificar a maneira como o experimento é conduzido, como, por exemplo, em ensaios médicos.R(θ,δ)
- Para um procedimento , o risco é uma função do parâmetro . Portanto, a abordagem freqüentista não induz uma ordem total no conjunto de procedimentos. Geralmente é impossível comparar procedimentos de decisão com esse critério, uma vez que duas funções de risco cruzadas impedem a comparação entre os estimadores correspondentes. Na melhor das hipóteses, pode-se esperar um procedimento que minimize uniformemente , mas esses casos raramente ocorrem, a menos que o espaço dos procedimentos de decisão seja restrito. Os melhores procedimentos só podem ser obtidos restringindo artificialmente o conjunto de procedimentos autorizados.δR(θ,δ)θδ0R(θ,δ)
Exemplo 2.4 - Considere e , duas observações de
O parâmetro de interesse é (isto é, ) e é estimado pelos estimadores sob a perda
geralmente chamado de perda de , que penaliza erros de estimativa, seja qual for a sua magnitude, em . Considerando o particular \ est
sua função de risco é
x1x2
Pθ(x=θ−1)=Pθ(x=θ+1)=0.5,θ∈R.
θD=ΘδL(θ,δ)=1−Iθ(δ),
0−1 1δ0(x1,x2)=x1+x22,
R(θ,δ0)==1−Pθ(δ0(x1,x2)=θ)1−Pθ(x1≠x2)=0.5.
Este cálculo mostra que o estimador está correto na metade do tempo. Na verdade, esse estimador está sempre correto quando
e sempre errado, caso contrário. Agora, \ est \
também possui uma função de risco igual a , assim como . Portanto, ,
e não podem ser classificados com a perda de .
δ0x1≠x2δ1(x1,x2)=x1+10.5δ2(x1,x2)=x2−1δ0δ1δ20−1▶
Pelo contrário, a abordagem bayesiana da teoria da decisão integra-se no espaço pois é desconhecido, em vez de integrar-se no espaço como é conhecido. Ele se baseia na perda esperada posterior
que média do erro (isto é, a perda) de acordo com o distribuição posterior do parâmetro , condicionalmente ao valor observado} . Dado , o erro médio resultante da decisão é realmenteΘθXx
ρ(π,d|x)==Eπ[L(θ,d)|x]∫ΘL(θ,d)π(θ|x)dθ,
θxxdρ(π,d|x) . A perda posterior esperada é, portanto, uma função de mas essa dependência não é problemática, ao contrário da dependência freqüente do risco no parâmetro, porque , ao contrário de , é conhecido.
xxθ