O ponto é que, às vezes, modelos diferentes (para os mesmos dados) podem levar a funções de probabilidade que diferem por uma constante multiplicativa, mas o conteúdo da informação deve ser claramente o mesmo. Um exemplo:
Modelamos experimentos independentes de Bernoulli, levando aos dados , cada um com uma distribuição de Bernoulli com o parâmetro (probabilidade) . Isso leva à função de probabilidade
Ou podemos resumir os dados pela variável binomialmente distribuída , que tem uma distribuição binomial, levando à função de probabilidade
que, em função do parâmetro desconhecido , é proporcional à antiga função de probabilidade . As duas funções de probabilidade contêm claramente a mesma informação e devem levar às mesmas inferências!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y= X1+ X2+ ⋯ + Xn( ny) py( 1 - p )n - y
p
E, de fato, por definição, eles são considerados a mesma função de probabilidade.
Outro ponto de vista: observe que, quando as funções de probabilidade são usadas no teorema de Bayes, conforme necessário para a análise bayesiana, essas constantes multiplicativas simplesmente se cancelam! então eles são claramente irrelevantes para a inferência bayesiana. Da mesma forma, ele será cancelado ao calcular as razões de verossimilhança, conforme usado nos testes de hipóteses ideais (lema de Neyman-Pearson.) E não terá influência no valor dos estimadores de verossimilhança máxima. Portanto, podemos ver que, em grande parte da inferência freqüentista, ela não pode desempenhar um papel.
Podemos argumentar ainda de outro ponto de vista. A função de probabilidade de Bernoulli (daqui em diante usamos o termo "densidade") acima é realmente uma densidade em relação à medida de contagem, ou seja, a medida nos números inteiros não negativos com massa um para cada número inteiro não negativo. Mas poderíamos ter definido uma densidade em relação a alguma outra medida dominante. Neste exemplo, isso parecerá (e é) artificial, mas em espaços maiores (espaços funcionais) é realmente fundamental! Para fins de ilustração, vamos usar a distribuição geométrica específica, escrita , com , , e em breve. Então a densidade da distribuição de Bernoulli em relação aλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - P ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λé dado por
significando que
Com essa nova medida dominante, a função de probabilidade se torna (com notação de cima)
observe o fator extra . Portanto, ao alterar a medida dominante usada na definição da função de verossimilhança, surge uma nova constante multiplicativa, que não depende do parâmetro desconhecidofλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+npe é claramente irrelevante. Essa é outra maneira de ver como constantes multiplicativas devem ser irrelevantes. Este argumento pode ser generalizado usando derivados de Radon-Nikodym (como o argumento acima é um exemplo de.)