Qual é a razão pela qual uma função de probabilidade não é um pdf?

57

Por que uma função de probabilidade não é um pdf (função de densidade de probabilidade)?

likelihood pdf

— John Doe
fonte

6

A função de probabilidade é uma função do parâmetro desconhecido (condicionado nos dados). Como tal, normalmente não possui a área 1 (ou seja, a integral sobre todos os valores possíveis de não é 1) e, portanto, por definição, não é um pdf.

θ

$\theta$

θ

$\theta$

— MånsT

3

A mesma pergunta no MO há 2 anos: mathoverflow.net/questions/10971/…

— Douglas Zare

3

Referência interessante, @Douglas. As respostas são bastante insatisfatórias, IMHO. O aceito pressupõe coisas que simplesmente não são verdadeiras (" e são pdfs": não !) E os outros realmente não entendem as questões estatísticas.

p (X | m)

$p(X|m)$

p (m | X)

$p(m|X)$

— whuber

2

+1 whuber. É incrível que haja respostas tão ruins no site mathoverflow, apesar de seu nível matemático tão alto!

— Stéphane Laurent

11

@ Stephanie: Isso é verdade, mas estatísticos e até probabilistas parecem ser bastante poucos e distantes no MO, com algumas exceções notáveis. Essa pergunta foi bem no início da existência do MO, quando as perguntas geralmente admissíveis e a qualidade das respostas eram substancialmente diferentes.

— cardeal

61

Começaremos com duas definições:

Uma função de densidade de probabilidade (pdf) é uma função não negativa que se integra a . $1$
A probabilidade é definida como a densidade conjunta dos dados observados em função do parâmetro. Mas, como apontado pela referência a Lehmann feita por @whuber em um comentário abaixo, a função de probabilidade é uma função apenas do parâmetro, com os dados mantidos como uma constante fixa. Portanto, o fato de ser uma densidade em função dos dados é irrelevante.

Portanto, a função de verossimilhança não é um pdf porque sua integral em relação ao parâmetro não é necessariamente igual a 1 (e pode não ser totalmente integrável, na verdade, como apontado por outro comentário do @whuber).

Para ver isso, usaremos um exemplo simples. Suponha que você tenha uma única observação, , de uma distribuição . Então a função de probabilidade é $x$ ${\rm Bernoulli}(\theta)$

L (θ) = θ^{x} (1 - θ)^{1 - x}

$L(\theta) = \theta^{x} (1 - \theta)^{1-x}$

É um fato que . Especificamente, se , então , então $\int_{0}^{1} L(\theta) d \theta = 1/2$ $x = 1$ $L(\theta) = \theta$

\int_{0}^{1} L (θ) d θ = \int_{0}^{1} θ d θ = 1 / 2

$\int_{0}^{1} L(\theta) d \theta = \int_{0}^{1} \theta \ d \theta = 1/2$

e um cálculo semelhante se aplica quando . Portanto, não pode ser uma função de densidade. $x = 0$ $L(\theta)$

Talvez ainda mais importante que este exemplo técnico, mostrando por que a probabilidade não é uma densidade de probabilidade, seja apontar que a probabilidade não é a probabilidade do valor do parâmetro estar correto ou algo parecido - é a probabilidade (densidade) dos dados dado o valor do parâmetro , que é uma coisa completamente diferente. Portanto, não se deve esperar que a função de probabilidade se comporte como uma densidade de probabilidade.

— Macro
fonte

12

+1 Um ponto sutil é que mesmo a aparência do " " na integral não faz parte da função de probabilidade; vem do nada. Entre as muitas maneiras de ver isso, considere que uma reparameterização não altera nada essencial sobre a probabilidade - é apenas uma renomeação do parâmetro - mas altera a integral. Por exemplo, se parametrizarmos as distribuições de Bernoulli com as probabilidades de log , a integral nem convergirá.

d θ

$d\theta$

ψ = \log (θ / (1 - θ))

$\psi=\log(\theta/(1-\theta))$

— whuber

3

Essa é uma maneira de dizer: os MLEs são invariantes sob transformações monótonas, mas as densidades de probabilidade não são, QED! Esse foi exatamente o argumento de Fisher, que descrevi em um comentário à resposta de @Michael Chernick.

— whuber

4

+1 no comentário do whuber. O " " nem sequer tem um sentido em geral, porque não existe nem um campo no espaço de parâmetros!

d θ

$d\theta$

σ

$\sigma$

— Stéphane Laurent

11

@PatrickCaldon A única restrição de continuidade está no cdf, que requer continuidade correta. Você precisa disso para que sua probabilidade não vá de definida para indefinida e (possivelmente) de volta, o que seria estranho. Não tenho 100% de certeza, mas acho que, desde que você tenha seu cdf e, portanto, uma probabilidade, você nem precisa ser capaz de resolver . Se você puder, isso garante apenas que o RV seja contínuo.

\int_{D} f

$\int_D f$

— Joey

11

(+1) Deixe-me ser o primeiro a parabenizá-lo por atingir 10.000 representantes! Boa resposta; Eu gosto do exemplo que você dá, em particular. Felicidades. :)

— cardeal

2

Ok, mas a função de probabilidade é a densidade de probabilidade conjunta para os dados observados, dado o parâmetro . Como tal, pode ser normalizado para formar uma função de densidade de probabilidade. Portanto, é essencialmente como um pdf. $θ$

— Michael Chernick
fonte

3

Então, você está apenas apontando que a probabilidade é integrável com relação ao parâmetro (isso sempre é verdade?). Suponho que você esteja aludindo à relação da probabilidade com a distribuição posterior quando um prior plano for usado, mas sem mais explicações essa resposta permanece misteriosa para mim.

— Macro

6

Integrar à unidade não vem ao caso. Fisher, em um artigo de 1922, Sobre os fundamentos matemáticos da estatística teórica, observou que, de fato, geralmente a probabilidade pode ser "normalizada" para integrar-se à unidade ao multiplicar por uma função adequada para que . O que ele objetou é a arbitrariedade : existem muitos que funcionam. "... a palavra probabilidade é usada incorretamente em tal conexão: probabilidade é uma razão de frequências, e sobre as frequências de tais valores não podemos saber nada."

L (θ)

$L(\theta)$

p (θ)

$p(\theta)$

\int L (θ) p (θ) d θ = 1

$\int L(\theta)p(\theta)d\theta=1$

p

$p$

— whuber

11

@ Néstor (e Michael) - parece que eu e a whuber interpretamos essa pergunta como perguntando por que a probabilidade não é uma função de densidade, como uma função de $\theta$ pelo que parece que estamos respondendo a perguntas diferentes. Obviamente, a probabilidade é a função de densidade das observações (dado o valor do parâmetro) - é assim que é definida.

— Macro

2

Michael, acho que a interpretamos dessa maneira porque a probabilidade é uma função de , portanto, se fosse uma densidade, seria uma densidade em . Eu posso imaginar interpretá-lo da maneira que você tem, mas essa possibilidade não me ocorreu até depois de ler o comentário de Nestor.

θ

$\theta$

θ

$\theta$

— Macro

4

Acho que a ambiguidade é criada por esta resposta, mas não está presente na pergunta. Como o @Macro aponta, a probabilidade é uma função apenas do parâmetro. ( Por exemplo , "A densidade , considerada para fixo como uma função de , é chamada de função de probabilidade : EL Lehmann, Teoria da estimativa de pontos , seção 6.2 .) Assim, a questão é clara Respondendo, então, que a "probabilidade é a densidade de probabilidade conjunta" não esclarece, mas confunde a questão..

f (x_{1}, θ) \dots f (x_{n}, θ)

$f(x_1,\theta)\cdots f(x_n,\theta)$

x

$x$

θ

$\theta$

— whuber

1

Não sou estatístico, mas meu entendimento é que, embora a função de probabilidade em si não seja um PDF com relação aos parâmetros, ela está diretamente relacionada a esse PDF pela regra de Bayes. A função de verossimilhança, P (X | teta), e a distribuição posterior, f (teta | X), estão fortemente ligadas; não é "uma coisa completamente diferente".

— santayana
fonte

11

Bem vindo ao nosso site! Você pode encontrar material interessante nos comentários para outras respostas neste tópico. Alguns deles apontam por que a Regra de Bayes não se aplica, a menos que maquinaria matemática adicional seja explicitamente introduzida (como um campo Sigma para o parâmetro).

— whuber

Obrigado @whuber. Eu não notei nenhuma referência à Regra de Bayes em outro lugar do tópico, mas suponho que haja alusões nos comentários, supondo que uma seja suficientemente fluente na probabilidade de pós-graduação para buscá-las (o que não sou). Você não concorda que colocar a função de probabilidade no contexto da Regra de Bayes fornece intuição útil para a pergunta do OP?

— 22815 santayana

A aplicação da regra de Bayes não é possível sem assumir uma distribuição de probabilidade para : a distinção entre essa distribuição e a distribuição dos dados como uma função de é o quase tudo. Supondo implicitamente que exista ou possa haver tal distribuição é a fonte da confusão discutida no tópico de comentários da resposta de Michael Chernick. Concordo, portanto, que uma discussão clara e cuidadosa sobre esse ponto pode ser útil, mas qualquer coisa menos que isso arrisca a criar uma maior confusão.

θ

$\theta$

θ

$\theta$

— whuber

Minhas desculpas, à primeira vista, esse tópico parecia pouco mais do que um mal-entendido, mas agora vejo os comentários relevantes a que você se refere, em particular sua citação de Fisher. Mas isso não se resume a um debate bayesiano versus freqüentista? Não existe um grande número de praticantes de inferência bayesiana que argumentariam a favor de uma distribuição de probabilidade para teta? (se você concorda com eles é outra questão ...)

— santayana

11

Sim, o debate B vs. F está à espreita aqui. Um freqüentador atencioso usará alegremente a Regra de Bayes quando houver uma base para adotar uma distribuição anterior para , mas separa a empresa dos bayesianos ao negar que devemos adotar uma prévia. Podemos entender como essa pergunta foi formulada. Se, em vez disso, perguntasse "por que alguém pode tratar a função de probabilidade como um PDF (para os parâmetros)", isso teria direcionado essa conversa ao longo das linhas bayesianas. Mas, perguntando pelo negativo, o OP estava procurando que examinássemos a probabilidade de um ponto de vista freqüentista.

θ

$\theta$

— whuber

1

A probabilidade é definida como , onde se f (x; θ) é uma função de massa de probabilidade , então a probabilidade é sempre menor que uma, mas se f (x; θ) for uma função de densidade de probabilidade, a probabilidade poderá ser maior que uma, pois as densidades podem ser maiores que uma. $\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta)$

Normalmente as amostras são tratadas iid, então:
$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta) = \prod_{j} f(x_j; \theta)$

Vamos ver sua forma original:

De acordo com a inferência bayesiana, mantém, isto é, . Observe que a estimativa de probabilidade máxima trata a razão de evidência para anterior como uma constante (consulte as respostas desta pergunta ), o que omite as crenças anteriores. A probabilidade tem uma correlação positiva com a posterior, com base nos parâmetros estimados. pode ser um pdf, mas não é, pois é apenas uma parte de que é intratável. $f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $\hat{\mathcal{L}} = \frac{posterior * evidence}{prior}$ $\hat{\mathcal{L}}$ $\mathcal{L}$ $\mathcal{L}$ $\hat{\mathcal{L}}$

Por exemplo, não sei a variação média e padrão de uma distribuição gaussiana e quero obtê-los treinando usando muitas amostras dessa distribuição. Inicialmente, inicializo a variância média e padrão aleatoriamente (que define uma distribuição gaussiana) e, em seguida, pego uma amostra e me encaixo na distribuição estimada e posso obter uma probabilidade a partir da distribuição estimada. Depois, continuo colocando a amostra e obtendo muitas probabilidades, e multiplico essas probabilidades e obtenho uma pontuação. Esse tipo de pontuação é a probabilidade. Dificilmente pode haver uma probabilidade de um determinado pdf.

— Lerner Zhang
fonte