Existe alguma diferença entre Frequentista e Bayesiano na definição de Probabilidade?


21

Algumas fontes dizem que a função de probabilidade não é uma probabilidade condicional, outras dizem que é. Isso é muito confuso para mim.

De acordo com a maioria das fontes que eu vi, a probabilidade de uma distribuição com o parâmetro deve ser um produto de funções de massa de probabilidade dadas amostras de :n x iθnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Por exemplo, em Regressão logística, usamos um algoritmo de otimização para maximizar a função de probabilidade (Estimação de máxima verossimilhança) para obter os parâmetros ideais e, portanto, o modelo final de RL. Dadas as amostras de treinamento, que assumimos serem independentes uma da outra, queremos maximizar o produto das probabilidades (ou as funções de massa da probabilidade conjunta). Isso me parece bastante óbvio.n

De acordo com a relação entre: probabilidade, probabilidade condicional e taxa de falhas , "probabilidade não é uma probabilidade e não é uma probabilidade condicional". Ele também mencionou: "probabilidade é uma probabilidade condicional apenas no entendimento bayesiano de probabilidade, ou seja, se você assumir que é uma variável aleatória".θ

Eu li sobre as diferentes perspectivas de tratamento de um problema de aprendizagem entre frequentista e bayesiano.

Segundo uma fonte, para inferência bayesiana, temos a priori , probabilidade , e queremos obter o posterior , usando o teorema bayesiano:P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Não estou familiarizado com a inferência bayesiana. Como é que P(X|θ) que é a distribuição dos dados observados condicional aos seus parâmetros, também é chamado de probabilidade? Na Wikipedia , diz que às vezes está escrito L(θ|X)=p(X|θ) . O que isto significa?

existe uma diferença entre as definições de verossimilhança Frequentist e Bayesian ??

Obrigado.


EDITAR:

Existem diferentes maneiras de interpretar o teorema de Bayes - interpretação Bayesiana e interpretação Frequentista (Veja: Teorema de Bayes - Wikipedia ).


2
Duas propriedades-chave da probabilidade são que (a) é uma função de para um em particular, e não o contrário, e (b) só pode ser conhecido como uma constante positiva de proporcionalidade. Não é uma probabilidade (condicional ou não), porque não precisa somar ou integrar em todosθX1θ
Henry

Respostas:


24

Não há diferença na definição - em ambos os casos, a função de probabilidade é qualquer função do parâmetro que seja proporcional à densidade de amostragem. A rigor, não exigimos que a probabilidade seja igual à densidade amostral; precisa apenas ser proporcional, o que permite a remoção de partes multiplicativas que não dependem dos parâmetros.

Enquanto a densidade de amostragem é interpretada como uma função dos dados, condicional a um valor especificado do parâmetro, a função de probabilidade é interpretada como uma função do parâmetro para um vetor de dados fixo. Portanto, no caso padrão de dados IID, você tem:

Lx(θ)i=1np(xi|θ).

Nas estatísticas bayesianas, geralmente expressamos o teorema de Bayes em sua forma mais simples:

π(θ|x)π(θ)Lx(θ).

Essa expressão do teorema de Bayes enfatiza que ambos os seus elementos multilicativos são funções do parâmetro, que é o objeto de interesse na densidade posterior. (Esse resultado da proporcionalidade define completamente a regra, já que a posterior é uma densidade e, portanto, há uma constante multiplicadora única que a integra a uma.) Como você ressalta em sua atualização, a filosofia bayesiana e a frequentista têm estruturas interpretativas diferentes. Dentro do paradigma frequentista, o parâmetro é geralmente tratado como uma "constante fixa" e, portanto, não é atribuída uma medida de probabilidade. Os freqüentistas, portanto, rejeitam a atribuição de uma distribuição anterior ou posterior ao parâmetro (para mais discussões sobre essas diferenças filosóficas e interpretativas, ver, por exemplo, O'Neill 2009 ).


14

A função de verossimilhança é definida independentemente ou antes do paradigma estatístico usado para inferência, como uma função, (ou ), do parâmetro , function isso depende ou é indexado por observação (s) disponível para esta inferência. E também implicitamente, dependendo da família de modelos de probabilidade escolhidos para representar a variabilidade ou aleatoriedade nos dados. Para um determinado valor do par , o valor dessa função é exatamente idêntico ao valor da densidade do modelo emL(θ;x)L(θ|x)θx(θ,x)xquando indexado com o parâmetro . θO que geralmente é traduzido de forma grosseira como a "probabilidade dos dados".

Para citar fontes mais autoritativas e históricas do que uma resposta anterior neste fórum,

"Podemos discutir a probabilidade de ocorrência de quantidades que podem ser observadas... Em relação a quaisquer hipóteses sugeridas para explicar essas observações. Não podemos saber nada sobre a probabilidade de hipóteses... [Podemos] determinar a probabilidade de hipóteses... calculando as observações:... falar da probabilidade ... de uma quantidade observável não tem significado. " RA Fisher, Sobre o `` erro provável '' de um coeficiente de correlação deduzido de uma pequena amostra . Metron 1, 1921, p.25

e

"O que podemos encontrar de uma amostra é a probabilidade de qualquer valor específico de r, se definirmos a probabilidade como uma quantidade proporcional à probabilidade de que, de uma população com o valor específico de r, uma amostra com o valor observado de r , deve ser obtido. " RA Fisher, Sobre o `` erro provável '' de um coeficiente de correlação deduzido de uma pequena amostra . Metron 1, 1921, p.24

que menciona uma proporcionalidade que Jeffreys (e eu) consideramos supérfluos:

".. probabilidade, um termo conveniente introduzido pelo professor RA Fisher, embora em seu uso às vezes seja multiplicado por um fator constante. Essa é a probabilidade das observações dadas as informações originais e a hipótese em discussão". H. Jeffreys, Teoria da Probabilidade , 1939, p.28

Para citar apenas uma frase da excelente entrada histórica para o tópico de John Aldrich (Statistical Science, 1997):

"Fisher (1921, p. 24) reformulou o que havia escrito em 1912 sobre probabilidade inversa, distinguindo entre as operações matemáticas que podem ser executadas em densidades e probabilidades de probabilidade: probabilidade não é um '' elemento diferencial '', não pode ser integrada . " J. Aldrich, RA Fisher e o Making of Maximum Likelihood 1912 - 1922 , 1997 , p.9

Ao adotar uma abordagem bayesiana, a função de probabilidade não muda de forma ou de natureza. Ele continua sendo a densidade em indexada por . A característica adicional é que, uma vez que também é dotada com um modelo probabilístico, a distribuição antes, a densidade a indexados por também pode ser interpretado como um condicional densidade, dependente de uma realização de : em uma modelagem Bayesiana , uma realização de é produzida a partir do anterior, com densidade , depois uma realização de ,xθθxθθθπ()Xx, é produzido a partir da distribuição com densidade , indexada por . Em outras palavras, e com relação à medida dominante adequada, o par tem densidade articular da qual se deriva a densidade posterior de , isto é, a densidade condicional de , condicional à realização de como também expressa como encontrado desde Jeffreys (1939) .L(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Nota: Acho a distinção feita na introdução da página da Wikipedia sobre funções de probabilidade entre probabilidades freqüentistas e bayesianas confusas e desnecessárias, ou simplesmente erradas, pois a grande maioria dos estatísticos bayesianos atuais não usa a probabilidade como um substituto para a probabilidade posterior. Da mesma forma, a "diferença" apontada na página da Wikipedia sobre o Teorema de Bayes parece mais confusa do que qualquer outra coisa, pois esse teorema é uma declaração de probabilidade sobre uma mudança de condicionamento, independente do paradigma ou do significado de uma declaração de probabilidade. ( Na minha opinião , é mais uma definição do que um teorema!)


1

Como um pequeno adendo:

O nome "Probabilidade" é totalmente enganador, porque existem muitos significados possíveis. Não apenas o "idioma normal", mas também nas estatísticas. Eu posso pensar em pelo menos três expressões diferentes, mas até relacionadas, todas chamadas de Probabilidade; mesmo em livros de texto.

Dito isto, ao adotar a definição multiplicativa de Probabilidade, não há nada que a transforme em qualquer tipo de probabilidade no sentido de sua definição (por exemplo, axiomática). É um número com valor real. Você pode fazer muitas coisas para calculá-lo ou relacioná-lo a uma probabilidade (calcular proporções, calcular anteriores e posteriores etc.) - mas, por si só, não tem significado em termos de probabilidade.

A resposta foi mais ou menos obsoleta pela resposta muito mais informativa e abrangente de Xi'an. Mas, mediante solicitação, algumas definições de livro de probabilidade de Probabilidade:

  • a funçãoL(x;θ)
  • o método de encontrar um 'melhor' valor do parâmetro sob a condição de alguns dados observados (L. máximo, L. mínimo, log-L., etc.)θ
  • a razão de valores de verossimilhança para diferentes antecedentes anteriores (por exemplo, em uma tarefa de classificação) ... e, além disso, os diferentes significados que se pode tentar atribuir ao (ab) uso dos elementos mencionados acima.

1
Essa seria uma resposta muito melhor se você pudesse adicionar exemplos / referências, pois eu posso pensar em pelo menos três expressões diferentes, mas mesmo relacionadas, todas chamadas de Probabilidade; mesmo em livros de texto .
Kjetil b halvorsen
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.