O que “probabilidade é definida apenas até uma constante multiplicativa de proporcionalidade” significa na prática?


19

Estou lendo um artigo em que os autores estão levando de uma discussão sobre estimativa de probabilidade máxima ao Teorema de Bayes, ostensivamente como uma introdução para iniciantes.

Como exemplo de probabilidade, eles começam com uma distribuição binomial:

p(x|n,θ)=(nx)θx(1-θ)n-x

e depois registre os dois lados

(θ|x,n)=xem(θ)+(n-x)em(1-θ)

com a lógica de que:

"Como a probabilidade é definida apenas até uma constante multiplicativa de proporcionalidade (ou uma constante aditiva para a probabilidade logarítmica), podemos redimensionar ... largando o coeficiente binomial e escrevendo a probabilidade logarítmica no lugar da probabilidade"

A matemática faz sentido, mas não consigo entender o que significa "a probabilidade é definida apenas como uma constante multiplicativa de proporcionalidade" e como isso permite reduzir o coeficiente binomial e passar de p(x|n,θ) para (θ|x,n) .

Terminologia semelhante surgiu em outras questões ( aqui e aqui ), mas ainda não está claro o que, praticamente, probabilidade está sendo definida ou trazendo informações até um meio constante multiplicativo. É possível explicar isso em termos leigos?

Respostas:


18

O ponto é que, às vezes, modelos diferentes (para os mesmos dados) podem levar a funções de probabilidade que diferem por uma constante multiplicativa, mas o conteúdo da informação deve ser claramente o mesmo. Um exemplo:

Modelamos experimentos independentes de Bernoulli, levando aos dados , cada um com uma distribuição de Bernoulli com o parâmetro (probabilidade) . Isso leva à função de probabilidade Ou podemos resumir os dados pela variável binomialmente distribuída , que tem uma distribuição binomial, levando à função de probabilidade que, em função do parâmetro desconhecido , é proporcional à antiga função de probabilidade . As duas funções de probabilidade contêm claramente a mesma informação e devem levar às mesmas inferências!nX1,,Xnp

i=1npxi(1p)1xEu
Y=X1+X2++Xn
(ny)py(1-p)n-y
p

E, de fato, por definição, eles são considerados a mesma função de probabilidade.

Outro ponto de vista: observe que, quando as funções de probabilidade são usadas no teorema de Bayes, conforme necessário para a análise bayesiana, essas constantes multiplicativas simplesmente se cancelam! então eles são claramente irrelevantes para a inferência bayesiana. Da mesma forma, ele será cancelado ao calcular as razões de verossimilhança, conforme usado nos testes de hipóteses ideais (lema de Neyman-Pearson.) E não terá influência no valor dos estimadores de verossimilhança máxima. Portanto, podemos ver que, em grande parte da inferência freqüentista, ela não pode desempenhar um papel.

Podemos argumentar ainda de outro ponto de vista. A função de probabilidade de Bernoulli (daqui em diante usamos o termo "densidade") acima é realmente uma densidade em relação à medida de contagem, ou seja, a medida nos números inteiros não negativos com massa um para cada número inteiro não negativo. Mas poderíamos ter definido uma densidade em relação a alguma outra medida dominante. Neste exemplo, isso parecerá (e é) artificial, mas em espaços maiores (espaços funcionais) é realmente fundamental! Para fins de ilustração, vamos usar a distribuição geométrica específica, escrita , com , , e em breve. Então a densidade da distribuição de Bernoulli em relação aλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - P ) 1 - x2 x + 1 P ( X = x ) = f λ ( x ) λé dado por significando que Com essa nova medida dominante, a função de probabilidade se torna (com notação de cima) observe o fator extra . Portanto, ao alterar a medida dominante usada na definição da função de verossimilhança, surge uma nova constante multiplicativa, que não depende do parâmetro desconhecido

fλ(x)=px(1p)1x2x+1
P(X=x)=fλ(x)λ(x)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+npe é claramente irrelevante. Essa é outra maneira de ver como constantes multiplicativas devem ser irrelevantes. Este argumento pode ser generalizado usando derivados de Radon-Nikodym (como o argumento acima é um exemplo de.)


"o conteúdo da informação deve ser claramente o mesmo" Isso só é verdade se você acredita no princípio da probabilidade!
jsk

Sim, talvez, mas mostrei como se segue dos princípios bayesianos.
Kjetil b halvorsen

@kjetilbhalvorsen Obrigado pela resposta atenciosa! Ainda estou confuso sobre o motivo pelo qual a probabilidade de distribuição de bernoulli não inclui um coeficiente binomial. Sua resposta deixa claro por que isso não importa, mas eu não entendo por que ficou de fora da probabilidade em primeiro lugar.
precisa saber é o seguinte

@jvans: É porque o coeficiente binomial não dependem do parâmetro desconhecido, por isso não pode influenciar a forma da função de verossimilhança
b Kjetil Halvorsen

12

Basicamente, significa que apenas o valor relativo do PDF é importante. Por exemplo, o PDF normal (gaussiano) padrão é: , seu livro está dizendo que eles poderiam usar , porque eles não se importam com a escala, ou seja, .g(x)=e-x2/2c=1f(x)=12πex2/2g(x)=ex2/2c=12π

Isto acontece porque maximizar a função de probabilidade, e e terá o mesmo máximo. Portanto, o máximo de será o mesmo de . Então, eles não se preocupam com a balança.g ( x ) e - x 2 / 2 f ( x )cg(x)g(x)ex2/2f(x)


6

Não posso explicar o significado da cotação, mas para a estimativa de probabilidade máxima , não importa se escolhemos encontrar o máximo da função de probabilidade (considerada como uma função de ou the máximo de onde é alguma constante.Isso não significa que não estamos interessados ​​no valor máximo de mas no valor onde esse máximo ocorre, e e atingem seu valor máximo no mesmo θ a L ( x ; θ ) a L ( x ; θ ) θ ML L ( x ; θ ) a L ( x ; θ ) θ ML g ( ) L ( x ; θ ) g ( L ( x ; θ ) ) θ ML a lnL(x;θ)θaL(x;θ)aL(x;θ)θMLL(x;θ)aL(x;θ)θML. Portanto, constantes multiplicativas podem ser ignoradas. Da mesma forma, poderíamos optar por considerar qualquer função monótona (como o logaritmo) da função de probabilidade , determinar o máximo de e deduza o valor de disso. Para o logaritmo, a constante multipliativa se torna a constante aditiva e isso também pode ser ignorado no processo de encontrar a localização do máximo: é maximizado no mesmo ponto que .g()L(x;θ)g(L(x;θ))θMLaln ( a ) + ln ( L ( x ; θ ) ln ( L ( x ; θ )ln(a)ln(a)+ln(L(x;θ)ln(L(x;θ)

Voltando ao máximo da estimativa da probabilidade a posteriori (MAP), é considerado como a realização de uma variável aleatória com uma função de densidade a priori , os dados são considerados uma realização de uma variável aleatória , e a função de probabilidade é considerada o valor da densidade condicional de condicionada em ; a referida função de densidade condicional sendo avaliada em . oΘ f Θ ( θ ) x X f X | q ( x | Θ = θ ) X Θ = θ x Θ f Θ | X ( θ | x ) = F X | q ( x | Θ = θ ) f Θ ( θ )θΘfΘ(θ)xXfXΘ(xΘ=θ)XΘ=θxuma densidade posterior de é em que reconhecemos o numerador como a densidade da junta dos dados e do parâmetro sendo estimado. O ponto que atinge seu valor máximo é a estimativa MAP de e, usando os mesmos argumentos que no parágrafo, vemos que podemos ignorar no lado direito deΘ

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1(1)como uma constante multiplicativa, assim como podemos ignorar as constantes multiplicativos em ambos e . Da mesma forma, quando as probabilidades de log estão sendo usadas, podemos ignorar constantes aditivas.fXΘ(xΘ=θ)fΘ(θ)

Essa linha de raciocínio também pode ser feita via bayes: se você colocar ou no teorema de Bayes não importa, o será cancelado para que o posterior seja o mesmo. LaLa
b Kjetil Halvorsen

5

Nos termos do leigo, você geralmente procurará a máxima probabilidade e compartilham os mesmos pontos críticos.f(x)kf(x)


3
Então faça e , mas eles não seriam funções de verossimilhança equivalentesf(x)f(x)+2
Henry

Por favor, como Alecos Papadopoulos escreve em sua resposta, "a probabilidade é primeiro uma função de densidade de probabilidade conjunta". Devido à suposição iid para amostras aleatórias, essa função conjunta é um produto de funções simples de densidade; portanto, fatores multiplicativos surgem, e os aditivos não.
Sergio

1
A função conjunta é esse produto se e somente se os dados forem independentes. Mas o MLE se estende a variáveis ​​dependentes, portanto o argumento do produto não parece convincente.
whuber

1

argmax

Pode haver circunstâncias incomuns em que você terá que maximizar a probabilidade sujeita a um teto - e então "lembre-se" de incluir quaisquer constantes no cálculo de seu valor.

Além disso, você pode estar executando testes de seleção de modelos para modelos não aninhados, usando o valor da probabilidade no processo - e como os modelos não são aninhados, as duas probabilidades terão constantes diferentes.

Além disso, a frase

"Como a probabilidade é definida apenas até uma constante multiplicativa de proporcionalidade (ou uma constante aditiva para a probabilidade logarítmica)"

está errado , porque a probabilidade é primeiro uma função de densidade de probabilidade conjunta , não apenas "qualquer" função objetiva a ser maximizada.


3
θθ

3
L(θx)=f(xθ).
11

1
@heropup Eu já escrevi que ele não necessariamente se integra à unidade no espaço de parâmetros e, portanto, imediatamente, não pode ser considerado como uma "função de densidade" quando é visto como uma "função dos parâmetros".
Alecos Papadopoulos

1
Sim eu conheço. O que quero dizer é que a frase "A função de verossimilhança é uma função de densidade, vista como uma função dos parâmetros" é confusa. Seria mais preciso dizer algo como: "A função de probabilidade é uma função dos parâmetros para uma amostra fixa e é equivalente (ou proporcional) à densidade da junta no espaço da amostra".
heropup

1
L(xθ)f(θ)Lf(θ)
Dilip Sarwate
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.