Essas operações estão sendo realizadas com probabilidade e não probabilidade. Embora a distinção possa ser sutil, você identificou um aspecto crucial: o produto de duas densidades nunca é uma densidade.
A linguagem do blog sugere isso - mas ao mesmo tempo, fica sutilmente errada -, então vamos analisá-la:
A média dessa distribuição é a configuração para a qual as duas estimativas são mais prováveis e, portanto, é o melhor palpite para a verdadeira configuração, considerando todas as informações que temos.
Já observamos que o produto não é uma distribuição. (Embora possa ser transformado em um via multiplicação por um número adequado, não é isso que está acontecendo aqui.)
As palavras "estimativas" e "melhor palpite" indicam que esse mecanismo está sendo usado para estimar um parâmetro - nesse caso, a "configuração verdadeira" (coordenadas x, y).
Infelizmente, a média não é o melhor palpite. O modo é Este é o princípio da máxima verossimilhança (ML).
μμXiμXiifiμRR
Pr(Xi∈R)=∫Rfi(x;μ)dx.
Terceiro, presume-se que os dois sensores estejam operando com independência física , o que é considerado como implicando independência estatística .
Por definição, a probabilidade das duas observações é a densidade de probabilidade que elas teriam sob essa distribuição conjunta, dado que a verdadeira localização é . A suposição de independência implica que esse é o produto das densidades. Para esclarecer um ponto sutil,x1,x2μ
A função do produto que atribui a uma observação não é uma densidade de probabilidade para ; Contudo,x xf1(x;μ)f2(x;μ)xx
O produto é a densidade da junta do par ordenado .( x 1 , x 2 )f1(x1;μ)f2(x2;μ)(x1,x2)
Na figura postada, é o centro de um blob, é o centro de outro e os pontos em seu espaço representam valores possíveis de . Observe que nem nem têm a intenção de dizer algo sobre as probabilidades de ! é apenas um valor fixo desconhecido . Não é uma variável aleatória.x1x2μf1f2μμ
Aqui está outra reviravolta sutil: a probabilidade é considerada uma função de . Nós temos os dados - nós estamos apenas tentando descobrir o que é provável que seja. Assim, o que precisamos traçar é a função de probabilidadeμμ
Λ(μ)=f1(x1;μ)f2(x2;μ).
É uma coincidência singular que isso também seja gaussiano! A demonstração é reveladora. Vamos fazer as contas em apenas uma dimensão (em vez de duas ou mais) para ver o padrão - tudo generaliza para mais dimensões. O logaritmo de um gaussiano tem a forma
logfi(xi;μ)=Ai−Bi(xi−μ)2
para constantes e . Assim, a probabilidade do log éAiBi
logΛ(μ)=A1−B1(x1−μ)2+A2−B2(x2−μ)2=C−(B1+B2)(μ−B1x1+B2x2B1+B2)2
onde não depende de . Este é o log de um gaussiano em que o papel do foi substituído pela média ponderada mostrada na fração.Cμxi
Vamos voltar ao tópico principal. A estimativa de ML de é o valor que maximiza a probabilidade. Equivalentemente, maximiza esse gaussiano que acabamos de derivar do produto dos gaussianos. Por definição, o máximo é um modo . É coincidência - resultante da simetria pontual de cada gaussiano em torno de seu centro - que o modo coincide com a média.μ
Essa análise revelou que várias coincidências na situação específica obscureceram os conceitos subjacentes:
uma distribuição multivariada (conjunta) era facilmente confundida com uma distribuição univariada (o que não é);
a probabilidade parecia uma distribuição de probabilidade (o que não é);
o produto dos gaussianos passa a ser gaussiano (uma regularidade que geralmente não é verdadeira quando os sensores variam de maneiras não gaussianas);
e o modo coincide com a média (que é garantida apenas para sensores com respostas simétricas em torno dos valores reais).
Somente focando nesses conceitos e eliminando os comportamentos coincidentes podemos ver o que realmente está acontecendo.