Por que a probabilidade do log precisa ir para menos infinito quando o parâmetro se aproxima do limite do espaço do parâmetro?

Em uma palestra recente, disseram-me que, para que a estimativa de probabilidade máxima seja válida, a probabilidade de log precisa ir para menos infinito, pois o parâmetro vai para o limite do espaço de parâmetro. Mas não entendo por que isso é essencial. Suponha que a probabilidade do log vá para algum tipo de assíntota. Então o parâmetro que maximiza a probabilidade ainda é a estimativa de máxima probabilidade, certo?

maximum-likelihood

— mrz
fonte

(+1). Puxa: então, se eu executar o ajuste de ML de uma distribuição Normal para meus dados e limitar os possíveis valores do SD no intervalo de

10^{- 1000}

$10^{-1000}$ a

10^{1000}

$10^{1000}$ e a média no intervalo

\pm 10^{1000},

$\pm 10^{1000},$ acho que minhas estimativas não serão mais válidas .... :-). Como esses pontos de extremidade estão além do alcance da precisão do ponto flutuante IEEE, isso significa que ninguém pode confiar em nenhum software estatístico executado em dispositivos de computação padrão. Deve ser hora de todos nós retirarmos o ábaco velho (que está na prateleira com a régua de cálculo) e voltar a fazer os cálculos manualmente.

— whuber

O argumento usual para a normalidade assintótica do estimador ML usa uma suposição de que o valor verdadeiro do parâmetro está no interior do espaço do parâmetro. Presumivelmente, a suposição de que você está falando é usada para provar essa interioridade. A condição que você menciona definitivamente não é essencial, no sentido de ser necessária.

— Bill

Qual é o espaço do parâmetro, qual é o parâmetro em questão e qual distribuição? Falam-lhe muitas informações críticas para que você possa avaliar sua validade.

— Alecos Papadopoulos

para que a estimativa de probabilidade máxima seja válida, a probabilidade de log precisa ir para menos infinito à medida que o parâmetro vai para o limite

Isso é igual a dizer que a probabilidade de um parâmetro precisa se tornar 0 no limite do espaço do parâmetro para que o resultado seja válido.

Bem, antes de tudo, você pode restringir o espaço do parâmetro a valores que tenham uma probabilidade positiva e ainda assim obtenham uma estimativa válida.

Em segundo lugar, mesmo se você usar, digamos , não chegará perto do limite, pois qualquer pacote de otimização pronto para uso executa algum tipo de inicialização aleatória e, em seguida, se aproxima do mínimo usando algum método como gradiente descida, gradiente conjugado ou outro. Em ambos os casos, você quase nunca acaba se aproximando do limite do espaço de parâmetro, então não entendo muito bem por que os limites são importantes em primeiro lugar. $(-\infty,\infty)$

E mesmo que você faça isso de propósito, em um ponto atingirá a precisão do ponto flutuante do seu sistema operacional. Posso garantir-lhe que, nesse ponto, você realmente não se aproximou do limite por muito. :) $-\infty$

Pessoalmente, acho que o problema de underflow surge ao calcular somas e produtos com probabilidades muito pequenas e a soma de log exp enganar uma questão muito mais interessante e mais digna de nota que realmente importa muito na prática, ao contrário de atingir os limites do espaço de parâmetros.

— meio-para-significado
fonte