Estou usando o Bayes para resolver um problema de cluster. Depois de fazer alguns cálculos, acabo com a necessidade de obter a razão de duas probabilidades:
para obter . Essas probabilidades são obtidas pela integração de dois KDEs multivariados 2D diferentes, conforme explicado nesta resposta :
onde f ( x , y ) e g ( x , y ) são as KDES e a integração é feita para todos os pontos abaixo dos limiares de f ( r um , é um ) e g ( r b , s b ) . Ambos os KDEs usam um kernel gaussiano . Uma imagem representativa de um KDE semelhante à que eu estou trabalhando pode ser vista aqui: Integrando o estimador de densidade de kernel em 2D .
Eu calculo os KDEs por meio da python
função stats.gaussian_kde , então assumo a seguinte forma geral:
Onde n
está o comprimento da minha matriz de pontos e h
a largura de banda usada.
As integrais acima são calculadas aplicando um processo de Monte Carlo, que é bastante computacionalmente caro. Eu li em algum lugar (esqueci onde, desculpe) que, em casos como este, é possível substituir a proporção de probabilidades pela proporção de PDFs (KDEs) avaliados nos pontos de limiar para obter resultados igualmente válidos. Estou interessado nisso, porque calcular a proporção do KDEs é uma ordem de magnitude mais rápida que calcular a proporção das integrais com o MC.
Portanto, a questão é reduzida à validade dessa expressão:
Em que circunstâncias, se houver, posso dizer que essa relação é verdadeira?
[erro de digitação fixo (EDIT)]
Adicionar :
Aqui está basicamente a mesma pergunta, mas feita de uma forma mais matemática .
P(X)
qual estou tentando evitar calcular. Você poderia expandir um pouco a relevância desse parâmetro?