Em "Aprendizado de máquina: uma perspectiva probabilística" de Kevin Murphy, capítulo 3.2, o autor demonstra o aprendizado do conceito bayesiano em um exemplo chamado "jogo de números": Depois de observar amostras de , queremos escolha uma hipótese que melhor descreva a regra que gerou as amostras. Por exemplo "números pares" ou "números primos".{ 1 , . . . , 100 } h
As estimativas máxima a posteriori e máxima verossimilhança são definidas como:
onde representa as probabilidades anteriores de várias hipóteses e a posterior é definida como:
iff , isto é, qual a probabilidade de que uma amostragem uniforme com substituição da hipótese produza o conjunto . Intuitivamente, significa que o posterior é mais alto para hipóteses "menores". Por exemplo, hipóteses "potências de 2" explicam observações melhores que "números pares".
Tudo isso está claro. No entanto, estou confuso sobre a seguinte frase (mesmo que intuitivamente faça todo sentido):
Como o prazo de probabilidade depende exponencialmente de e o anterior permanece constante, à medida que obtemos mais e mais dados, a estimativa do MAP converge para a estimativa de probabilidade máxima.
É verdade que a probabilidade depende exponencialmente de ; no entanto, o número exponencial está no intervalo e, como , , a probabilidade deve realmente desaparecer.
Por que o MAP converge para o MLE nesse caso?