Entendendo o parâmetro como uma variável aleatória nas estatísticas bayesianas

Se bem entendi, nas estatísticas bayesianas, um parâmetro é uma variável aleatória. Ao estimar o parâmetro, uma distribuição anterior é combinada com os dados para produzir uma distribuição posterior.

Questão:

Todos os pontos de dados (na amostra e na população) são gerados pela mesma realização do parâmetro?
Se sim, por que me importaria com a distribuição (ou seja, outras realizações possíveis e suas respectivas massas de probabilidade ou valores de densidade de probabilidade) do parâmetro? Afinal, estou tentando descobrir algo sobre essa população em particular a partir da amostra e do anterior.
Caso contrário, como isso se reflete nas fórmulas da estimativa de parâmetros bayesianos?

Ao mesmo tempo, entendo que minhas crenças, sejam iniciais (refletidas pelo anterior) ou atualizadas (refletidas pelo posterior), vêm como uma distribuição, e não tenho nenhum problema com isso. Mas me pergunto se / por que devo assumir que o parâmetro em si é uma variável aleatória.

Edit: Recebi algumas respostas que são úteis, mas eu apreciaria outra ou algumas que são mais importantes.

bayesian

— Richard Hardy
fonte

Desculpe se esta é uma duplicata. Encontrei alguns tópicos relacionados, por exemplo "Um bayesiano admitiria que existe um valor de parâmetro fixo?" , mas pensei que talvez o meu seja suficientemente distinto.

— Richard Hardy

Aqui está o que Florian Hartig escreveu neste tópico : [O] que seria o ponto de estimar uma quantidade que não é fixa? O que isso significaria matematicamente? Obviamente, pode ser que você tenha uma quantidade que não é um valor, mas uma distribuição. Mas então você estima a distribuição, para que ela seja corrigida novamente. Isso reflete meu próprio entendimento atual.

— Richard Hardy

Respostas:

Nas estatísticas freqüentistas, assumimos que não sabemos nada sobre os parâmetros de interesse antes de ver os dados.

Nas estatísticas bayesianas, relaxamos essa suposição, reconhecendo que podemos saber algo sobre os possíveis valores do (s) parâmetro (s) de interesse antes de ver os dados - por exemplo, qual a probabilidade de o parâmetro assumir valores em um determinado intervalo . Depois de ver os dados, podemos refinar / atualizar esse conhecimento anterior. Portanto, as distribuições anteriores dos parâmetros de interesse encapsulam nosso conhecimento / crença sobre os possíveis valores desses parâmetros antes de ver os dados, enquanto as distribuições posteriores correspondentes refinam esse conhecimento / crença com entrada dos dados.

As estatísticas freqüentistas e bayesianas assumem que um parâmetro é uma quantidade desconhecida que deve ser estimada. Mas eles divergem em termos das entradas necessárias para estimar essa quantidade: dados apenas para estatísticas freqüentistas versus conhecimento / crença anterior, mais dados para estatísticas bayesianas.

Quando os bayesianos relatam a média / mediana / modo de uma distribuição posterior para um parâmetro específico, o fazem porque acreditam que esse é o valor mais provável do parâmetro (ou seja, quantidade desconhecida a ser estimada). Mas o parâmetro é desconhecido, portanto, uma medida de incerteza em torno desse valor mais provável (por exemplo, intervalo de 95% de credibilidade) dá uma sensação de onde o valor verdadeiro do parâmetro pode estar.

Como freqüentador que se aproxima do campo bayesiano, achei útil pensar no parâmetro como algo desconhecido que estamos tentando estimar e nas distribuições anterior e posterior como ferramentas para encapsular nosso estado de conhecimento / crença sobre essa entidade desconhecida antes e depois de vermos os dados, respectivamente.

Enquanto os freqüentadores adotam a abordagem de linha dura que não sabemos nada sobre a entidade desconhecida que estamos perseguindo, os bayesianos adotam uma abordagem mais realista e sutil que podemos realmente saber alguma coisa e que, quando virmos os dados, melhoraremos sobre esse conhecimento.

Por isso, nos preocupamos com distribuições no contexto bayesiano, porque são veículos convenientes para expressar o estado atual de conhecimento / crença (para distribuições anteriores) e o esperançosamente melhorado estado de conhecimento / crença alcançado após a visualização dos dados (para distribuições posteriores).

Termo aditivo:

Pessoalmente, subscrevo a visão captada de forma tão eloquente por Sander Greenland no artigo Perspectivas bayesianas para a pesquisa epidemiológica: I. Fundamentos e métodos básicos , International Journal of Epidemiology, Volume 35, Edição 3, 1 de junho de 2006, Páginas 765–775 (que está disponível em https://academic.oup.com/ije/article/35/3/765/735529 ):

" Costuma-se dizer (incorretamente) que 'parâmetros são tratados como fixos pelo freqüentista, mas aleatórios pelo bayesiano'. Para freqüentadores e bayesianos, o valor de um parâmetro pode ter sido corrigido desde o início ou pode ter sido gerado a partir de um mecanismo fisicamente aleatório.Em ambos os casos, ambos supõem que tenha assumido algum valor fixo que gostaríamos de saber.O Bayesiano usa modelos formais de probabilidade para expressar incerteza pessoal sobre esse valor. A 'aleatoriedade' nesses modelos representa incerteza pessoal sobre o valor do parâmetro; não é uma propriedade do parâmetro (embora esperemos que ele reflita com precisão as propriedades dos mecanismos que produziram o parâmetro) ".

Veja http://thestatsgeek.com/2015/04/22/bayesian-inference-are-parameters-fixed-or-random/ para mais reflexões sobre este tópico.

— Isabella Ghement
fonte

Obrigado pela sua resposta! Se eu entendi direito, você não parece argumentar sobre o tratamento do parâmetro como um RV, no sentido de que ele pode ser uma quantidade fixa. A linguagem dos RVs é usada apenas para expressar nossos conhecimentos / crenças sobre onde está esse valor fixo. (É assim que penso também.) Mas você poderia responder diretamente às perguntas? Por exemplo, você diria "1. Sim" e "2. Apenas usamos a linguagem dos RVs para expressar nossos conhecimentos / crenças sobre uma quantidade fixa (uma quantidade que não é realmente um RV)"? Mas então o último entrava em conflito ao dizer que um parâmetro é um RV.

— Richard Hardy

@RichardHardy: adicionei um adendo que pode ajudar a esclarecer minhas tendências pessoais. Como não sou bayesiano, prefiro deixar que outras pessoas respondam suas perguntas diretamente. Eu apenas pensei em entrar, porque chego às coisas da mesma perspectiva que você e isso pode pelo menos validar que você está no caminho certo.

— Isabella Ghement

Andrew Gelman às vezes usa a frase "bayesianos, frequentistas e estatísticos". Estatísticos são basicamente pragmáticos, que muitas vezes parecem escolher o que funciona (espero).

— precisa saber é o seguinte

@IsabellaGhement, obrigado. A citação parece atraente para mim. A postagem no blog também é legal.

— Richard Hardy

Todos os pontos de dados (na amostra e na população) são gerados pela mesma realização do parâmetro?

Na amostra, a resposta é "sim", se você pensa em coisas como heterocedasticidade como tendo uma forma como $\sigma^2_{\Delta{t}}=\Delta{t}\sigma_0^2$
Na população, a resposta poderia ser sim se você pensar na distribuição como um Dirac funcional, mas não automaticamente na população. Considere o caso em que um cassino altera a probabilidade de ganhar de tempos em tempos. Para 100 empates experimentais fixos no cassino, a probabilidade de ganhar no cassino será a média ponderada do valor de alteração. O momento das quebras estruturais é desconhecido. Se a probabilidade de ganhar no cassino for próxima o suficiente para 0,5 modelar uma ruptura estrutural não faz sentido, pois o ruído natural inundará a realidade, a menos que a mudança seja acentuada, como passar de 50% de chance de ganhar para 99% de chance de ganhar. com o intervalo de 50 empates. Após o fato, a probabilidade conjunta de ganhar é um valor fixo sobre um conjunto fixo de empates e fixo se a população for fixa,

Se sim, por que eu me importaria com a distribuição (ou seja, outras realizações possíveis e suas respectivas densidades) do parâmetro? Afinal, estou tentando descobrir algo sobre essa população em particular a partir da amostra e do anterior.

Sua pergunta reflete a queixa bayesiana de que os métodos freqüentistas violam o princípio da probabilidade. Por que considerar amostras invisíveis na realização de um teste t? Porque os métodos freqüentistas têm média sobre o espaço da amostra. Por que considerar as realizações do parâmetro irrelevantes para sua amostra? A resposta fraca é porque os métodos bayesianos têm média sobre o espaço do parâmetro.

Essa pergunta seria um ataque muito legítimo, principalmente aos métodos subjetivos bayesianos, se alguém quisesse ser polêmico. Embora o princípio da probabilidade tenha sido mostrado defeituoso sob algumas maneiras de pensar sobre isso, a construção filosófica dos métodos freqüentistas não parece refletir o trabalho bayesiano. Esse deveria ser um artigo, embora provavelmente compartilhe as falhas do princípio da probabilidade nas estatísticas bayesianas.

A resposta mais forte é que, embora $lim_{n\to\infty}\hat{\theta}\to\theta$ nos falta um tamanho infinito de amostra. Como tal, uma vez que os métodos bayesianos tratam a aleatoriedade como incerteza, e não como um acaso, como os métodos freqüentistas, essa é uma quantificação da incerteza que resta em sua compreensão da natureza. Se você precisar agir sobre o parâmetro e reduzi-lo para apenas dois valores possíveis $\hat{\theta}_A$ e $\hat{\theta}_B$ diga com $\Pr(\theta=\hat{\theta}_A)=.75$ pode ser perigoso e certamente é incoerente (no sentido de Finetti) ignorar como o único valor possível possível. $\hat{\theta}_B$

Para dar um exemplo concreto, testei 78 modelos de falência e constatei que a probabilidade cumulativa posterior para 76 deles era de um por cento, enquanto os outros dois eram aproximadamente 54% e 46%. Felizmente, nenhum dos modelos compartilhava variáveis. Uma razão para se preocupar é que, quase com certeza, eu tenho o verdadeiro modelo errado. A média do modelo da densidade preditiva me permitiu criar um erro extraordinariamente pequeno fora da amostra. Eu me preocupo com os modelos de alta probabilidade, e se eu tivesse os recursos para calcular os resultados em um modelo completo de média que incluísse os 76 modelos de baixa probabilidade, os resultados não teriam mudado no número de dígitos que considero significativos. $1/10,000^{th}$

Caso contrário, como isso se reflete nas fórmulas da estimativa de parâmetros bayesianos?

Este é o teorema de Bayes. Se alguém é intelectualmente honesto, então a verdadeira visão subjetivista extrema, à la Savage , exige nada mais que uma densidade posterior adequada. Se eu vou jogar com você, de acordo com Finetti, sobre se a gravidade é válida ou não saindo de um prédio de dez andares, devo considerar visões alternativas da realidade antes de fazer minha aposta. Agora, se eu quisesse incluir a teoria da decisão, já que sair de um prédio de dez andares é uma versão natural da função de custo tudo ou nada, então se minhas crenças contra a gravidade são suficientemente fortes, conclui-se que eu deveria sair do prédio . Ao fazer isso, eu me preocuparia apenas com esse experimento, pois a repetibilidade se torna um problema se eu estiver errado. Nesse caso, sua pergunta não tem significado, a menos que eu esteja correto. Por outro lado, se estou apostando dinheiro, a perda quadrática seria, na maioria dos casos reais, a função de perda apropriada, dada a natureza da curva de demanda por jogos e o relacionamento com as receitas dos jogos.

O potencial para uma mudança de parâmetro é refletido na atualização bayesiana. Sua pergunta é significativa apenas na repetição. Esse é o epítome da atualização bayesiana em uma estrutura puramente subjetivista. Como modelar desenhos subjetivos de parâmetros, executando muitas experiências e juntando-as para restringir o posterior à solução da natureza? Este é um sistema de pensamento construído em torno do modelo generativo.

EDIT Acho que devo voltar um pouco. Há mais de uma interpretação e mais de uma axiomatização dos métodos bayesianos. Eles sustentam um pouco suas perguntas.

Na interpretação subjetiva, os parâmetros são sorteados aleatoriamente a partir de uma distribuição. Essa distribuição é a densidade anterior. Se você pensa sobre o numerador do teorema de Bayes, , segue-se logicamente que o numerador depende fortemente do anterior. Como é aleatório, segue-se que um experimento pode ser pensado como uma instanciação de . Se você fizer outro experimento, será outra instanciação de . O objetivo é encontrar a verdadeira distribuição dos parâmetros. Essa distribuição poderia ter massa infinita em um único ponto e massa zero em qualquer outro lugar. $f(x|\theta)\pi(\theta)$ $\theta$ $\theta$ $\theta$

Na interpretação objetiva, os parâmetros são fixados como na metodologia Frequentist, mas são desconhecidos. O prior representa uma quantificação da probabilidade desconhecida que . A probabilidade é a distribuição da amostra. Há algum parâmetro que é conhecido pela natureza que a natureza usa para criar um amostra . O prior da natureza tem uma massa infinita em um único ponto e é zero em outro lugar. Seu prior contém as informações sobre o que você descobriu até o momento. A probabilidade considera apenas a amostra que foi vista e ignora o restante do espaço da amostra. $\theta=k$ $\theta$ $X$

Não há diferença matemática de forma entre as duas interpretações. Há também uma "interpretação de conveniência". Seria algo assim. Os métodos bayesianos são realmente úteis, mas descobrir os anteriores não é. Se for possível criar um prior que não prejudique a descoberta do parâmetro, o prior mais simples e conveniente deve ser usado, pois o prior pode ser incrivelmente valioso na regularização da amostra. Nesta visão, os parâmetros ainda são variáveis aleatórias, mas ninguém pensa muito sobre o que isso significa. É apenas útil.

Existem três conjuntos principais de axiomas por trás do pensamento bayesiano. Em alguns casos, a escolha realmente importa. Isso não se deve a diferenças de cálculo, mas a diferenças teóricas. Por exemplo, os axiomas de Savage permitem que os pesquisadores separem utilidade e probabilidade. os axiomas de Finetti não permitem que os pesquisadores separem utilidade da probabilidade. Isso ocorre porque a probabilidade não existe na construção de Finetti.

de Finetti tem dois axiomas. A primeira é que um apostador não aceitará apostas que resultem em uma perda segura em todos os estados da natureza. A segunda é que o apostador aceitará todas as apostas finitas pelos preços indicados pelo apostador. Essa é uma maneira incomum de motivar um teste de probabilidade da velocidade de um objeto em temperatura e pressão padrão, mas funciona. Reafirma a probabilidade em termos de apostas. Observe que nem probabilidade nem utilidade são mencionadas em nenhum dos axiomas. A probabilidade no mundo de Finetti é apenas um cálculo que usamos para pensar sobre o mundo e realmente não existe. Nem utilidade. Portanto, se você estiver usando utilidade e probabilidade juntos, eles serão indistinguíveis, pois ambos são cálculos abstratos que existem para ajudar a entender o mundo. Eles são meramente construções da mente.

Como exemplo, considere como um freqüentista e um bayesiano entenderiam o jogo de Cho Han. Para entender a perspectiva bayesiana, assista ao filme japonês de 1962, Zatoichi. Cho Han é um jogo que depende se os dados são pares ou ímpares. É comumente usado como um dispositivo nos filmes da Yakuza. Isso ocorre porque, como qualquer físico, mágico ou vigarista lhe dirá, não existe lançamento aleatório de dados ou sorteio de moedas. O resultado é incerto para o público, mas perfeitamente certo para aqueles que o conhecem. É impossível que uma amostra seja aleatória porque, uma vez concluída, é corrigida. Você sabe. A questão é como os parâmetros podem ser variáveis aleatórias.

O que está faltando é a política que cria os parâmetros. Em um modelo perfeitamente especificado, não há como distinguir entre um conjunto de experimentos com extraído de e com incerteza sobre a localização de . $\theta$ $\pi(\theta)$ $\theta=\theta_{true}$ $\theta_{true}$

Quanto à segunda questão, você deve ler sobre a controvérsia da probabilidade. O princípio da probabilidade provavelmente não é válido, mas é a versão bayesiana da sua pergunta dois. É uma pergunta muito profunda e não pode ter uma resposta superficial. Você poderia escrever um livro e certamente um artigo sobre ele.

O princípio de verossimilhança se baseia em dois princípios e a inferência freqüentista o viola. Baseia-se em dois princípios: o princípio da condicionalidade e o princípio da suficiência. Se o princípio da condicionalidade e o princípio da suficiência se mantiverem, os valores p sempre serão uma maneira incorreta de determinar a inferência. Tanto o princípio da condicionalidade quanto o princípio da probabilidade são atraentes individualmente para a maioria dos estatísticos, mas, em conjunto, pode-se argumentar que eles separam o frequentismo. Sua pergunta pode ser vista como o paralelo freqüentista.

Como tal, você obteve uma resposta mais profunda do que pretendia. De fato, se eu fosse um estudante de doutorado, poderia me sentar e passar um tempo ponderando sua pergunta dois. Pode haver um profundo princípio subjacente lá.

Veja, por exemplo, pergunta de probabilidade de troca de pilhas

palestra de probabilidade

— Dave Harris
fonte

Obrigado por sua extensa resposta! Em relação a 1., o exemplo de um cassino que muda as probabilidades em movimento parece complicado. Descrever uma amostra e uma população em que isso está acontecendo com um modelo que leva a probabilidade de ser o mesmo para todas as observações parece-me uma especificação incorreta do modelo. (Entendo que é uma complicação desnecessária que pode distrair uma pergunta muito concreta. Essa é apenas a minha compreensão, é claro.) Prefiro simplificar o exemplo para um em que não exista uma especificação errada de modelo e tentar responder 1. lá.

p

$p$

— Richard Hardy

Em relação a 2. e Por que considerar as realizações do parâmetro irrelevantes para sua amostra? A resposta fraca é ... , não acho que seja uma resposta satisfatória. (Mas talvez não fosse o caso.) Em relação à polêmica, meu interesse é estritamente ingênuo e eu só quero entender qual é a visão bayesiana do mundo, isso é tudo. Em relação a 3. e o exemplo de apenas uma tentativa (descendo de um edifício apenas uma vez), poderíamos pensar em uma população de tamanho 1. Uma amostra ou população de tamanho 1 deve necessariamente ser gerada por apenas uma realização do parâmetro - bastante simples .

— Richard Hardy

(+1) Resposta muito exaustiva, com um ponto sobre a perspectiva objetiva de Bayes com a qual eu concordo completamente.

— Xian