Se você adotar uma abordagem bayesiana e tratar parâmetros que descrevem a distribuição de como uma variável / vetor aleatório, as observações realmente não são independentes, mas seriam condicionalmente independentes, dado o conhecimento de portanto, aguentaria.θ P ( X n ∣ X n - 1 , … X 1 , θ ) = P ( X n ∣ θ )XθP( Xn∣ Xn - 1, … X1, θ ) = P( Xn∣ θ )
Em uma abordagem estatística clássica, não é uma variável aleatória. Os cálculos são feitos como se soubéssemos o que é . Em certo sentido, você está sempre condicionando (mesmo que não saiba o valor).θ θθθθ
Quando você escreveu "... forneça informações sobre a estrutura de distribuição e, como resultado, sobre ", você estava adotando implicitamente uma abordagem bayesiana, mas não exatamente. Você está escrevendo uma propriedade de amostras de IID que um frequentista escreveria, mas a declaração correspondente em uma configuração bayesiana envolveria condicionamento em . θXnθ
Estatísticos bayesianos vs. clássicos
Seja o resultado de lançar uma moeda desigual e injusta. Não sabemos a probabilidade da moeda cair na cara.xEu
- Para o estatístico clássico, o frequentista é algum parâmetro, vamos chamá-lo . Observe que aqui é um escalar, como o número 1/3. Podemos não saber qual é o número, mas é algum número! É não aleatória!P( xEu= H)θθ
- Para o estatístico bayesiano, si é uma variável aleatória! Isto é extremamente diferente!θ
A idéia principal aqui é que o estatístico bayesiano estende as ferramentas de probabilidade para situações em que o estatístico clássico não . Para o freqüentador, não é uma variável aleatória porque possui apenas um valor possível ! Vários resultados não são possíveis! Porém, na imaginação bayesiana, vários valores de são possíveis, e o bayesiano está disposto a modelar essa incerteza (em sua própria mente) usando as ferramentas da probabilidade.θθ
Para onde isso vai?
Digamos que jogamos a moeda vezes. Um flip não afeta o resultado do outro. O estatístico clássico chamaria esses flips independentes (e de fato são). Teremos:
Onde é desconhecido parâmetro. (Lembre-se, nós não sabemos o que é, mas é não uma variável aleatória! É algum número.)P (n
P( xn= H∣ xn - 1, xn - 2, … , X1) = P( xn= H) = θ
θ
Um bayesiano profundamente envolvido na probabilidade subjetiva diria que o que importa é a probabilidade da perspectiva dela! . Se ela vê 10 cabeças seguidas, uma 11ª cabeça é mais provável porque 10 cabeças seguidas levam a acreditar que a moeda é desequilibrada em favor das cabeças.
P( x11= H∣ x10= H, x9= H, … , X1= H) > P( x1= H)
O que aconteceu aqui? O que está diferente?! Atualizando crenças sobre uma variável aleatória latente ! Se for tratado como uma variável aleatória, os flips não serão mais independentes. Mas, os flips são condicionalmente independentes, dado o valor de .θθθ
P( x11= H∣ x10= H, x9= H, … , X1= H, θ ) = P( x1= H∣ θ ) = θ
Condicionar em em certo sentido, conecta como o estatístico bayesiano e o estatístico clássico modelam o problema. Ou, em outras palavras, o freqüentista e o estatístico bayesiano concordarão se as condições bayesianas se mantêm em .θθθ
Notas adicionais
Eu tentei o meu melhor para dar uma breve introdução aqui, mas o que eu fiz é, na melhor das hipóteses, bastante superficial e os conceitos são, em certo sentido, bastante profundos. Se você quiser mergulhar na filosofia da probabilidade, o livro de Savage de 1954, Foundation of Statistics é um clássico. Google para bayesian vs. frequentist e uma tonelada de coisas surgirão.
Outra maneira de pensar sobre os desvios da IID é o teorema de Finetti e a noção de permutabilidade . Em uma estrutura bayesiana, a permutabilidade é equivalente à independência condicional em alguma variável aleatória latente (neste caso, a desigualdade da moeda).