É realmente apenas uma conveniência para a probabilidade de log, nada mais.
Quero dizer a conveniência das somas vs. produtos: , as somas são mais fáceis de lidar com em muitos aspectos, tais como differentialtion ou integração. Não é uma conveniência apenas para famílias exponenciais, estou tentando dizer.em( ∏EuxEu) = ∑EuemxEu
Quando você lida com uma amostra aleatória, as probabilidades são da forma: , de modo que o loglikelihood iria quebrar este produto na soma vez, o que é mais fácil de manipular e analisar. Ajuda que tudo o que nos importa é o ponto do máximo, o valor no máximo não é importante, se podemos aplicar qualquer transformação monótona, como o logaritmo.L = ∏EupEu
Na intuição curvatura. No final, é basicamente a mesma coisa que a segunda derivada da probabilidade de logaritmo.
y= f( X )
κ = f′ ′( X )( 1 + f′( X )2)3 / 2
A segunda derivada da probabilidade logarítmica:
A = ( lnf( x ) )′ ′= f′ ′( X )f( X )- ( f′( X )f( X ))2
No ponto do máximo, a primeira derivada é obviamente zero, então obtemos:
Portanto, minha brincadeira é que a curvatura do a probabilidade e a segunda derivada da probabilidade de log são a mesma coisa, mais ou menos.
κm a x= f′ ′( xm a x) = A f( xm a x)
Por outro lado, se a primeira derivada de probabilidade é pequena, não apenas no ponto máximo, ou seja, no máximo, ou seja, a função de probabilidade é plana, obtemos:
Agora, a probabilidade plana não é uma coisa boa para nós, porque torna mais difícil encontrar o máximo numericamente, e a probabilidade máxima não é tão melhor que outros pontos ao seu redor, ou seja, os erros de estimativa de parâmetros são altos.
κ ≈ f′ ′( x ) ≈ A f( X )
E, novamente, ainda temos a curvatura e a segunda relação derivada. Então, por que Fisher não olhou para a curvatura da função de probabilidade? Eu acho que é pela mesma razão de conveniência. É mais fácil manipular a probabilidade de log por causa de somas em vez do produto. Assim, ele poderia estudar a curvatura da probabilidade analisando a segunda derivada da probabilidade logarítmica. Embora a equação pareça muito simples para a curvatura , na verdade você está usando uma segunda derivada do produto, que é mais confusa do que a soma das segundas derivadas.κm a x= f′ ′( xm a x)
ATUALIZAÇÃO 2:
Aqui está uma demonstração. Eu desenho uma função de probabilidade (completamente composta), é a) curvatura eb) a segunda derivada de seu log. No lado esquerdo, você vê a probabilidade estreita e, no lado direito, é amplo. Você vê como, no ponto da probabilidade máxima a) eb), converge, como deveriam. Mais importante ainda, você pode estudar a largura (ou nivelamento) da função de probabilidade examinando a segunda derivada de sua probabilidade de log. Como escrevi anteriormente, o último é tecnicamente mais simples do que o anterior para analisar.
Não é de surpreender que a segunda derivada mais profunda da probabilidade de log sinalize uma função de probabilidade mais plana em torno de seu máximo, o que não é desejado, pois causa maior erro de estimativa de parâmetro.
Código MATLAB no caso de você querer reproduzir os gráficos:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
ATUALIZAÇÃO 3:
No código acima, pluguei alguma função arbitrária em forma de sino na equação da curvatura e calculei a segunda derivada de seu log. Não redimensionei nada, os valores são diretos das equações para mostrar a equivalência que mencionei anteriormente.
Aqui está o primeiro artigo sobre a probabilidade que Fisher publicou enquanto ainda estava na universidade "Sobre um critério absoluto para ajustar curvas de frequência", Messenger of Mathmatics, 41: 155-160 (1912)
Como eu insistia o tempo todo, ele não menciona nenhuma conexão "mais profunda" de probabilidades de log com entropia e outros assuntos sofisticados, nem oferece ainda seu critério de informação. Ele simplesmente coloca a equação na p.54 e depois começa a falar sobre como maximizar as probabilidades. Na minha opinião, isso mostra que ele estava usando o logaritmo apenas como um método conveniente de analisar as probabilidades conjuntas. É especialmente útil no ajuste contínuo de curvas, para o qual ele fornece uma fórmula óbvia na p.55:
Boa sorte ao analisar essa probabilidade (ou probabilidade conforme Fisher) sem o registro!registroP′= ∑n1registrop
registroP= ∫∞- ∞registrofdx
P
Uma coisa a observar ao ler o artigo, ele estava apenas começando com o trabalho de estimativa de máxima verossimilhança e fez mais trabalhos nos 10 anos subsequentes; portanto, até o que eu sei, mesmo o termo MLE ainda não foi cunhado.