Todos os pontos de dados (na amostra e na população) são gerados pela mesma realização do parâmetro?
- Na amostra, a resposta é "sim", se você pensa em coisas como heterocedasticidade como tendo uma forma como σ2Δ t= Δ tσ20 0
- Na população, a resposta poderia ser sim se você pensar na distribuição como um Dirac funcional, mas não automaticamente na população. Considere o caso em que um cassino altera a probabilidade de ganhar de tempos em tempos. Para 100 empates experimentais fixos no cassino, a probabilidade de ganhar no cassino será a média ponderada do valor de alteração. O momento das quebras estruturais é desconhecido. Se a probabilidade de ganhar no cassino for próxima o suficiente para 0,5 modelar uma ruptura estrutural não faz sentido, pois o ruído natural inundará a realidade, a menos que a mudança seja acentuada, como passar de 50% de chance de ganhar para 99% de chance de ganhar. com o intervalo de 50 empates. Após o fato, a probabilidade conjunta de ganhar é um valor fixo sobre um conjunto fixo de empates e fixo se a população for fixa,
Se sim, por que eu me importaria com a distribuição (ou seja, outras realizações possíveis e suas respectivas densidades) do parâmetro? Afinal, estou tentando descobrir algo sobre essa população em particular a partir da amostra e do anterior.
Sua pergunta reflete a queixa bayesiana de que os métodos freqüentistas violam o princípio da probabilidade. Por que considerar amostras invisíveis na realização de um teste t? Porque os métodos freqüentistas têm média sobre o espaço da amostra. Por que considerar as realizações do parâmetro irrelevantes para sua amostra? A resposta fraca é porque os métodos bayesianos têm média sobre o espaço do parâmetro.
Essa pergunta seria um ataque muito legítimo, principalmente aos métodos subjetivos bayesianos, se alguém quisesse ser polêmico. Embora o princípio da probabilidade tenha sido mostrado defeituoso sob algumas maneiras de pensar sobre isso, a construção filosófica dos métodos freqüentistas não parece refletir o trabalho bayesiano. Esse deveria ser um artigo, embora provavelmente compartilhe as falhas do princípio da probabilidade nas estatísticas bayesianas.
A resposta mais forte é que, embora l imn → ∞θ^→ θnos falta um tamanho infinito de amostra. Como tal, uma vez que os métodos bayesianos tratam a aleatoriedade como incerteza, e não como um acaso, como os métodos freqüentistas, essa é uma quantificação da incerteza que resta em sua compreensão da natureza. Se você precisar agir sobre o parâmetro e reduzi-lo para apenas dois valores possíveisθ^UMA e θ^Bdiga com Pr ( θ =θ^UMA) = 0,75pode ser perigoso e certamente é incoerente (no sentido de Finetti) ignorar como o único valor possível possível.θ^B
Para dar um exemplo concreto, testei 78 modelos de falência e constatei que a probabilidade cumulativa posterior para 76 deles era de um por cento, enquanto os outros dois eram aproximadamente 54% e 46%. Felizmente, nenhum dos modelos compartilhava variáveis. Uma razão para se preocupar é que, quase com certeza, eu tenho o verdadeiro modelo errado. A média do modelo da densidade preditiva me permitiu criar um erro extraordinariamente pequeno fora da amostra. Eu me preocupo com os modelos de alta probabilidade, e se eu tivesse os recursos para calcular os resultados em um modelo completo de média que incluísse os 76 modelos de baixa probabilidade, os resultados não teriam mudado no número de dígitos que considero significativos.1 / 10 ,000t h
Caso contrário, como isso se reflete nas fórmulas da estimativa de parâmetros bayesianos?
Este é o teorema de Bayes. Se alguém é intelectualmente honesto, então a verdadeira visão subjetivista extrema, à la Savage , exige nada mais que uma densidade posterior adequada. Se eu vou jogar com você, de acordo com Finetti, sobre se a gravidade é válida ou não saindo de um prédio de dez andares, devo considerar visões alternativas da realidade antes de fazer minha aposta. Agora, se eu quisesse incluir a teoria da decisão, já que sair de um prédio de dez andares é uma versão natural da função de custo tudo ou nada, então se minhas crenças contra a gravidade são suficientemente fortes, conclui-se que eu deveria sair do prédio . Ao fazer isso, eu me preocuparia apenas com esse experimento, pois a repetibilidade se torna um problema se eu estiver errado. Nesse caso, sua pergunta não tem significado, a menos que eu esteja correto. Por outro lado, se estou apostando dinheiro, a perda quadrática seria, na maioria dos casos reais, a função de perda apropriada, dada a natureza da curva de demanda por jogos e o relacionamento com as receitas dos jogos.
O potencial para uma mudança de parâmetro é refletido na atualização bayesiana. Sua pergunta é significativa apenas na repetição. Esse é o epítome da atualização bayesiana em uma estrutura puramente subjetivista. Como modelar desenhos subjetivos de parâmetros, executando muitas experiências e juntando-as para restringir o posterior à solução da natureza? Este é um sistema de pensamento construído em torno do modelo generativo.
EDIT
Acho que devo voltar um pouco. Há mais de uma interpretação e mais de uma axiomatização dos métodos bayesianos. Eles sustentam um pouco suas perguntas.
Na interpretação subjetiva, os parâmetros são sorteados aleatoriamente a partir de uma distribuição. Essa distribuição é a densidade anterior. Se você pensa sobre o numerador do teorema de Bayes, , segue-se logicamente que o numerador depende fortemente do anterior. Como é aleatório, segue-se que um experimento pode ser pensado como uma instanciação de . Se você fizer outro experimento, será outra instanciação de . O objetivo é encontrar a verdadeira distribuição dos parâmetros. Essa distribuição poderia ter massa infinita em um único ponto e massa zero em qualquer outro lugar.f( x | θ ) π( θ )θθθ
Na interpretação objetiva, os parâmetros são fixados como na metodologia Frequentist, mas são desconhecidos. O prior representa uma quantificação da probabilidade desconhecida que . A probabilidade é a distribuição da amostra. Há algum parâmetro que é conhecido pela natureza que a natureza usa para criar um amostra . O prior da natureza tem uma massa infinita em um único ponto e é zero em outro lugar. Seu prior contém as informações sobre o que você descobriu até o momento. A probabilidade considera apenas a amostra que foi vista e ignora o restante do espaço da amostra.θ=kθX
Não há diferença matemática de forma entre as duas interpretações. Há também uma "interpretação de conveniência". Seria algo assim. Os métodos bayesianos são realmente úteis, mas descobrir os anteriores não é. Se for possível criar um prior que não prejudique a descoberta do parâmetro, o prior mais simples e conveniente deve ser usado, pois o prior pode ser incrivelmente valioso na regularização da amostra. Nesta visão, os parâmetros ainda são variáveis aleatórias, mas ninguém pensa muito sobre o que isso significa. É apenas útil.
Existem três conjuntos principais de axiomas por trás do pensamento bayesiano. Em alguns casos, a escolha realmente importa. Isso não se deve a diferenças de cálculo, mas a diferenças teóricas. Por exemplo, os axiomas de Savage permitem que os pesquisadores separem utilidade e probabilidade. os axiomas de Finetti não permitem que os pesquisadores separem utilidade da probabilidade. Isso ocorre porque a probabilidade não existe na construção de Finetti.
de Finetti tem dois axiomas. A primeira é que um apostador não aceitará apostas que resultem em uma perda segura em todos os estados da natureza. A segunda é que o apostador aceitará todas as apostas finitas pelos preços indicados pelo apostador. Essa é uma maneira incomum de motivar um teste de probabilidade da velocidade de um objeto em temperatura e pressão padrão, mas funciona. Reafirma a probabilidade em termos de apostas. Observe que nem probabilidade nem utilidade são mencionadas em nenhum dos axiomas. A probabilidade no mundo de Finetti é apenas um cálculo que usamos para pensar sobre o mundo e realmente não existe. Nem utilidade. Portanto, se você estiver usando utilidade e probabilidade juntos, eles serão indistinguíveis, pois ambos são cálculos abstratos que existem para ajudar a entender o mundo. Eles são meramente construções da mente.
Como exemplo, considere como um freqüentista e um bayesiano entenderiam o jogo de Cho Han. Para entender a perspectiva bayesiana, assista ao filme japonês de 1962, Zatoichi. Cho Han é um jogo que depende se os dados são pares ou ímpares. É comumente usado como um dispositivo nos filmes da Yakuza. Isso ocorre porque, como qualquer físico, mágico ou vigarista lhe dirá, não existe lançamento aleatório de dados ou sorteio de moedas. O resultado é incerto para o público, mas perfeitamente certo para aqueles que o conhecem. É impossível que uma amostra seja aleatória porque, uma vez concluída, é corrigida. Você sabe. A questão é como os parâmetros podem ser variáveis aleatórias.
O que está faltando é a política que cria os parâmetros. Em um modelo perfeitamente especificado, não há como distinguir entre um conjunto de experimentos com extraído de e com incerteza sobre a localização de .θπ(θ)θ=θtrueθtrue
Quanto à segunda questão, você deve ler sobre a controvérsia da probabilidade. O princípio da probabilidade provavelmente não é válido, mas é a versão bayesiana da sua pergunta dois. É uma pergunta muito profunda e não pode ter uma resposta superficial. Você poderia escrever um livro e certamente um artigo sobre ele.
O princípio de verossimilhança se baseia em dois princípios e a inferência freqüentista o viola. Baseia-se em dois princípios: o princípio da condicionalidade e o princípio da suficiência. Se o princípio da condicionalidade e o princípio da suficiência se mantiverem, os valores p sempre serão uma maneira incorreta de determinar a inferência. Tanto o princípio da condicionalidade quanto o princípio da probabilidade são atraentes individualmente para a maioria dos estatísticos, mas, em conjunto, pode-se argumentar que eles separam o frequentismo. Sua pergunta pode ser vista como o paralelo freqüentista.
Como tal, você obteve uma resposta mais profunda do que pretendia. De fato, se eu fosse um estudante de doutorado, poderia me sentar e passar um tempo ponderando sua pergunta dois. Pode haver um profundo princípio subjacente lá.
Veja, por exemplo, pergunta de probabilidade de troca de pilhas
ou
palestra de probabilidade