Comecei a ler sobre o estimador de máxima verossimilhança e as estatísticas bayesianas recentemente. Eu entendo que, dado um modelo estatístico onde pertence a um grande espaço de parâmetros , a divergência KL entre e ( é a verdadeira O parâmetro que gostaríamos de encontrar) é minimizado para o que maximiza . Assumindo que os eventos sejam independentes e distribuídos de forma idêntica, isso equivale a maximizar a probabilidade conjunta (a suposição de independência permite equiparar isso ao produto dos elementos individuais)
A abordagem bayesiana, explica a crença anterior na distribuição de , e maximiza , que pela regra de Bayes é equivalente a maximizar . Eu entendi as coisas até essa parte. Depois disso, é chamado de "probabilidade" e é substituído por , que é apenas o produto das probabilidades individuais do X está na distribuição . Isso significa que é realmente , ou seja, probabilidades dadas, ou algo assim ?
Não sou muito bom em probabilidade e distribuição, e meu entendimento é que o objeto é chamado de probabilidade condicional e o objeto (que é igual a por independência) é chamado de probabilidade conjunta e são coisas muito diferentes. Eu já vi autores usarem para a probabilidade conjunta em probabilidade máxima em alguns casos. Estou confuso por que a probabilidade conjunta e a probabilidade condicional são consideradas iguais?