Interpretações bayesianas versus freqüentistas de probabilidade

37

Alguém pode dar um bom resumo das diferenças entre a abordagem bayesiana e a abordagem freqüentista da probabilidade?

Pelo que entendi:

A visão dos freqüentadores é que os dados são uma amostra aleatória repetível (variável aleatória) com uma frequência / probabilidade específica (que é definida como a frequência relativa de um evento à medida que o número de tentativas se aproxima do infinito). Os parâmetros probabilidades subjacentes e permanecem constantes durante este processo repetitivo e que a variação é devido a variabilidade em $X_n$ e não a distribuição de probabilidade (o qual é fixado por um determinado acontecimento / processo).

A visão bayesiana é que os dados são fixos enquanto a frequência / probabilidade de um determinado evento pode mudar, o que significa que os parâmetros da distribuição mudam. Com efeito, os dados que você obtém alteram a distribuição anterior de um parâmetro que é atualizado para cada conjunto de dados.

Para mim, parece que a abordagem freqüentista é mais prática / lógica, pois parece razoável que os eventos tenham uma probabilidade específica e que a variação esteja em nossa amostragem.

Além disso, a maioria das análises de dados dos estudos geralmente é feita usando a abordagem freqüentista (ou seja, intervalos de confiança, teste de hipóteses com valores de p etc.), pois é facilmente compreensível.

Fiquei imaginando se alguém poderia me dar um resumo rápido de sua interpretação da abordagem bayesiana versus freqüentista, incluindo equivalentes estatísticos bayesianos do valor-p freqüentista e do intervalo de confiança. Além disso, exemplos específicos de onde um método seria preferível ao outro são apreciados.

probability bayesian frequentist

— BYS2
fonte

11

Em alguns locais, você será atacado por uma multidão enfurecida, se disser que a abordagem freqüente da inferência estatística é mais prática. (OK, talvez haja alguma hipérbole nessa afirmação.) Não concordo que os intervalos de confiança sejam mais fáceis de entender do que os intervalos de probabilidade posteriores. (De qualquer forma, ver minha resposta abaixo eu acho que vai direto à essência da questão, embora não haja nenhuma matemática além de saber o quê.

é.)

1 / 2

$1/2$

— Michael Hardy

@DilipSarwate sim, vou manter isso em mente para a próxima vez. mas parece que eu tenho algumas boas respostas desta vez talvez por isso eu vou tentar terminar aqui: D

— BYS2

Veja também stats.stackexchange.com/q/173056/35989

— Tim

27

Na abordagem freqüentista , afirma-se que o único sentido em que as probabilidades têm significado é como o valor limitador do número de sucessos em uma sequência de tentativas, ou seja, como

p = lim_{n \to \infty} \frac{k}{n}

$p = \lim_{n\to\infty} \frac{k}{n}$

onde é o número de sucessos é o número de tentativas. Em particular, não faz sentido associar uma distribuição de probabilidade a um parâmetro . $k$ $n$

Por exemplo, considere as amostras da distribuição de Bernoulli com o parâmetro (ou seja, eles têm o valor 1 com probabilidade e 0 com probabilidade ). Podemos definir a taxa de sucesso da amostra como $X_1, \dots, X_n$ $p$ $p$ $1-p$

\hat{p} = \frac{X_{1} + \dots + X_{n}}{n}

$\hat{p} = \frac{X_1+\cdots +X_n}{n}$

e falar sobre a distribuição de condicional no valor de , mas não faz sentido para inverter a questão e começar a falar sobre a distribuição de probabilidade de condicional no valor observado de . Em particular, isso significa que, quando calculamos um intervalo de confiança, interpretamos os fins do intervalo de confiança como variáveis aleatórias e falamos sobre "a probabilidade de que o intervalo inclua o parâmetro true", em vez de "a probabilidade de o parâmetro ser dentro do intervalo de confiança ". $\hat{p}$ $p$ $p$ $\hat{p}$

Na abordagem bayesiana , interpretamos as distribuições de probabilidade como quantificando nossa incerteza sobre o mundo. Em particular, isso significa que agora podemos falar significativamente sobre distribuições de probabilidade de parâmetros, pois, embora o parâmetro seja fixo, nosso conhecimento de seu verdadeiro valor pode ser limitado. No exemplo acima, podemos inverter a distribuição de probabilidade usando a lei de Bayes, para dar $f(\hat{p}\mid p)$

\overset{posterior}{\overset{⏞}{f (p ∣ \hat{p})}} = \underset{likelihood ratio}{\underset{⏟}{\frac{f (\hat{p} ∣ p)}{f (\hat{p})}}} \overset{prior}{\overset{⏞}{f (p)}}

$\overbrace{f(p\mid \hat{p})}^\text{posterior} = \underbrace{\frac{f(\hat{p}\mid p)}{f(\hat{p})}}_\text{likelihood ratio} \overbrace{f(p)}^\text{prior}$

O problema é que temos de introduzir a prévia distribuição em nossa análise - isto reflete nossa crença sobre o valor de antes de ver os valores reais do . O papel do prior é frequentemente criticado na abordagem freqüentista, pois argumenta que ele introduz a subjetividade no mundo de probabilidades austero e objeto. $p$ $X_i$

Na abordagem bayesiana, não se fala mais em intervalos de confiança, mas em vez de intervalos credíveis, que têm uma interpretação mais natural - dado um intervalo credível de 95%, podemos atribuir uma probabilidade de 95% de que o parâmetro esteja dentro do intervalo.

— Chris Taylor
fonte

6

Por outro lado, uma crítica à abordagem freqüentista é que ela não se encaixa na maneira como as pessoas pensam sobre a probabilidade. Pense em como as pessoas falam sobre a "probabilidade" de one-off eventos como a extinção dos dinossauros, ou a "probabilidade" de "certezas", como o nascer do sol amanhã ...

14

Também pode ser bom mencionar que a diferença entre as abordagens freqüentista e bayesiana não é tão grande em um nível prático: qualquer método freqüentista que produz resultados úteis e autoconsistentes pode geralmente receber uma interpretação bayesiana e vice-versa . Em particular, reformular um cálculo freqüentista em termos bayesianos normalmente produz uma regra para o cálculo do posterior, dado algum anterior específico . Pode-se então perguntar: "Bem, isso é realmente razoável antes de se assumir?"

— Ilmari Karonen

Obrigado por esta resposta, está de acordo com meu entendimento geral. No entanto, eu queria saber se você poderia esclarecer uma coisa, como você encontraria a probabilidade da taxa de sucesso dos dados / amostra (f (p-hat)) na fórmula da lei de Baye? Li alguns exemplos trabalhados e geralmente entendo como derivar f (p-hat | p) e o f (p) anterior, mas f (p-hat) me escapam até agora. Se você tivesse alguns links para alguns recursos, isso seria ótimo: D. Obrigado!

— BYS2

@IlmariKaronen. Ok, você está dizendo que, se eu tivesse um estudo que produzisse certos resultados expressos em intervalos de confiança, eu pudesse reformular os dados e fazer uma análise bayesiana? e os resultados seriam mais ou menos consistentes?

— BYS2

O que @Karonen diz não é totalmente preciso. As duas técnicas freqüentes mais comuns são estimativas pontuais (geralmente estimativa de máxima verossimilhança) e testes de hipóteses, e nenhuma delas pode realmente ser dada uma interpretação bayesiana natural.

— Jules

20

Você está certo sobre sua interpretação da probabilidade freqüentista: a aleatoriedade nesta configuração é meramente devido à amostragem incompleta. Do ponto de vista bayesiano, as probabilidades são "subjetivas", pois refletem a incerteza de um agente sobre o mundo. Não é certo dizer que os parâmetros das distribuições "mudam". Como não temos informações completas sobre os parâmetros, nossa incerteza sobre eles muda à medida que coletamos mais informações.

Ambas as interpretações são úteis em aplicações e a que é mais útil depende da situação. Você pode conferir o blog de Andrew Gelman para obter idéias sobre aplicações bayesianas. Em muitas situações, o que os bayesianos chamam de "anteriores" os freqüentistas chamam de "regularização" e, portanto, da minha perspectiva, a excitação pode sair da sala rapidamente. De fato, de acordo com o teorema de Bernstein-von Mises, a inferência Bayesiana e Frequentista são na verdade assintoticamente equivalentes sob suposições bastante fracas (embora notavelmente o teorema falhe em distribuições de dimensões infinitas). Você pode encontrar várias referências sobre isso aqui .

Desde que você pediu interpretações: acho que o ponto de vista freqüentista faz muito sentido ao modelar experimentos científicos como ele foi projetado para fazer. Para algumas aplicações em aprendizado de máquina ou para modelagem de raciocínio indutivo (ou aprendizado), a probabilidade bayesiana faz mais sentido para mim. Existem muitas situações nas quais a modelagem de um evento com uma probabilidade fixa "verdadeira" parece implausível.

Para um exemplo de brinquedo voltando a Laplace , considere a probabilidade de o sol nascer amanhã. Da perspectiva freqüentista, temos que postular algo como infinitos universos para definir a probabilidade. Como bayesianos, existe apenas um universo (ou pelo menos, não precisa haver muitos). Nossa incerteza sobre o nascer do sol é abafada por nossa crença prévia muito, muito forte, de que ele voltará a nascer amanhã.

— Sim
fonte

17

A interpretação bayesiana da probabilidade é uma interpretação do grau de crença.

$1/2$

— Michael Hardy
fonte

2

Provavelmente não há lugar melhor para refletir sobre as limitações da abordagem freqüentista mais restrita versus a generalidade da abordagem bayesiana (extensão da lógica) do que o artigo clássico de RT Cox.

— gwr

2

Cox também escreveu um livro sobre isso, intitulado Álgebra de Provável Inferência , publicado por Johns Hopkins. @gwr

$\qquad$

— Michael Hardy

11

Ian Hacking disse isso bem em seu livro "Uma introdução à probabilidade e lógica indutiva". Ele disse: "O bayesiano é capaz de anexar probabilidades pessoais, ou graus de crença, a proposições individuais. O dogmatista de frequência da linha-dura pensa que as probabilidades podem ser ligadas apenas a uma série de eventos".

— Buttons840

9

Chris dá uma boa explicação simplista que diferencia adequadamente as duas abordagens de probabilidade. Mas a teoria freqüentista da probabilidade é mais do que apenas olhar para a proporção de sucessos a longo prazo. Também consideramos dados amostrados aleatoriamente a partir de uma distribuição e estimamos parâmetros da distribuição, como média e variância, tomando certos tipos de médias dos dados (por exemplo, para a média, é a média aritmética das observações. A teoria freqüentista associa uma probabilidade com a estimativa que é chamada de distribuição amostral.

Na teoria da frequência, podemos mostrar parâmetros como a média obtida pela média das amostras que a estimativa convergirá para o parâmetro verdadeiro. A distribuição amostral é usada para descrever a proximidade da estimativa com o parâmetro para qualquer tamanho fixo de amostra n. Fechar é definido por uma medida de precisão (por exemplo, erro quadrático médio).

At Chris aponta para qualquer parâmetro, como a média, o bayesiano atribui uma distribuição de probabilidade anterior a ele. Dado os dados, a regra de Bayes é usada para calcular uma distribuição posterior para o parâmetro. Para o bayesiano, toda inferência sobre o parâmetro é baseada nessa distribuição posterior.

Os freqüentistas constroem intervalos de confiança que são intervalos de valores plausíveis para o parâmetro. Sua construção é baseada na probabilidade freqüente de que, se o processo usado para gerar o intervalo fosse repetido várias vezes para amostras independentes, a proporção de intervalos que realmente incluiria o valor real do parâmetro seria pelo menos algum nível de confiança pré-especificado (por exemplo, 95% )

Os bayesianos usam a distribuição a posteriori para o parâmetro para construir regiões credíveis. Estas são simplesmente regiões no espaço do parâmetro sobre o qual a distinção posterior é integrada para obter uma probabilidade pré-especificada (por exemplo, 0,95). As regiões credíveis são interpretadas pelos bayesianos como regiões que têm uma alta probabilidade (por exemplo, de 0,95 pré-especificada) de incluir o valor verdadeiro do parâmetro.

— Michael R. Chernick
fonte

11

As regiões credíveis são interpretadas pelos bayesianos como regiões com uma alta probabilidade (por exemplo, de 0,95 pré-especificada) de incluir o valor verdadeiro do parâmetro . Como isso é possível se o parâmetro é uma variável aleatória?

@ Procrastinator Ok, talvez você prefira apenas dizer que cobre uma proporção pré-especificada alta da distribuição de parâmetros. Mas se X é uma variável aleatória com uma distribuição f e construímos uma região credível para ela, a região representa a probabilidade de que uma realização da variável aleatória esteja na região.

— 22912 Michael Jackson Chernick

Eu concordo com esta explicação. É importante esclarecer que a realização da variável aleatória não é o verdadeiro valor do parâmetro.

@ Procrastinator, esse é um ponto interessante que você levanta. No entanto, meu entendimento da probabilidade bayesiana é que muitos bayesianos concordam com estatísticos clássicos de que existe um único valor VERDADEIRO do parâmetro em questão (ele é fixo, mas desconhecido). É a incerteza sobre esse parâmetro que é distribuída por causa do nosso estado imperfeito de conhecimento. Então, se você pensa assim, a afirmação inicial de Michael Chernick é válida, não acha?

— BYS2

2

θ_{0} = 1

$\theta_0=1$

(1, 100)

$(1,100)$

2

Do ponto de vista do "mundo real", encontro uma grande diferença entre uma "solução" freqüentista e uma clássica ou bayesiana que se aplica a pelo menos três cenários principais. A diferença na seleção de uma metodologia depende se você precisa de uma solução impactada pela probabilidade da população ou de uma que seja impactada pela probabilidade individual. Exemplos abaixo:

Se houver uma probabilidade conhecida de 5% de que homens acima de 40 anos morram em um determinado ano e exijam pagamentos de seguro de vida, uma companhia de seguros pode usar a porcentagem de POPULAÇÃO de 5% para estimar seus custos, mas dizer que cada homem acima de 40 anos só tem uma chance de 5% de morrer ... não tem sentido ... Porque 5% têm 100% de probabilidade de morrer - o que é uma abordagem freqüentista. No nível individual, o evento ocorre (100% de probabilidade) ou não (0% de probabilidade). Contudo, com base nessas informações limitadas, não é possível prever os indivíduos com 100% de probabilidade de morrer e os 5 % de probabilidade média da população é inútil no nível individual.
O argumento acima se aplica igualmente a incêndios em edifícios, e é por isso que os aspersores são necessários em todos os edifícios de uma população.
Ambos os argumentos acima se aplicam igualmente às culatras, danos ou "hacks" dos sistemas de informação. As porcentagens da população são inúteis, portanto todos os sistemas devem ser salvaguardados.

— James J Finn
fonte

2

Não reconheço uma abordagem freqüentista em nenhuma dessas três instâncias. Todos eles parecem depender de um conceito retrospectivo - e, portanto, inútil - de probabilidade, que não é usado em modelos clássicos. Por exemplo, a afirmação de que "o evento ocorre ... ou não" é trivialmente verdadeira, mas não está relacionada às probabilidades.

— whuber

0

A escolha da interpretação depende da pergunta. Se você deseja conhecer as probabilidades de um jogo de azar, a interpretação clássica resolverá seu problema, mas os dados estatísticos são inúteis, pois dados justos não têm memória.

Se você deseja prever um evento futuro com base em experiências passadas, a interpretação freqüentista é correta e suficiente.

Se você não sabe se um evento passado ocorreu e deseja avaliar a probabilidade de ocorrência, deve considerar suas crenças anteriores, isto é, o que você já sabe sobre a chance do evento ocorrer e atualizar sua crença quando adquirir novos dados.

Como a pergunta é sobre um certo grau de crença e cada pessoa pode ter uma idéia diferente sobre os anteriores, a interpretação é necessariamente subjetiva, também conhecida como bayesiana.

— Aviel Roy-Shapira
fonte