Eu me deparei com um grande corpo de literatura que defende o uso da métrica de Informações de Fisher como uma métrica local natural no espaço de distribuições de probabilidade e, em seguida, a integração sobre ela para definir distâncias e volumes.
Mas essas quantidades "integradas" são realmente úteis para alguma coisa? Não encontrei justificativas teóricas e pouquíssimas aplicações práticas. Um é o trabalho de Guy Lebanon, onde ele usa "distância de Fisher" para classificar documentos e outro é o ABC da Seleção de Modelos de Rodriguez ... onde "volume de Fisher" é usado para a seleção de modelos. Aparentemente, o uso de "volume de informações" fornece melhorias em "ordens de grandeza" sobre o AIC e o BIC para a seleção de modelos, mas não vi nenhum acompanhamento desse trabalho.
Uma justificativa teórica pode ser ter um limite de generalização que use essa medida de distância ou volume e seja melhor do que os limites derivados de MDL ou argumentos assintóticos, ou um método baseado em uma dessas quantidades que seja comprovadamente melhor em alguma situação razoavelmente prática. algum resultado desse tipo?