Comparação entre MaxEnt, ML, Bayes e outros tipos de métodos de inferência estatística

21

Não sou de forma alguma um estatístico (eu tive um curso de estatística matemática, mas nada além disso) e, recentemente, enquanto estudava teoria da informação e mecânica estatística, conheci uma coisa chamada "medida de incerteza" / "entropia". Eu li a derivação de Khinchin como uma medida de incerteza e isso fez sentido para mim. Outra coisa que fez sentido foi a descrição do MaxEnt de Jaynes para obter uma estatística quando você conhece a média aritmética de uma ou mais funções na amostra (assumindo que você aceita como uma medida da incerteza, é claro). $-\sum p_i\ln p_i$

Então eu procurei na rede para encontrar o relacionamento com outros métodos de inferência estatística, e Deus estava confuso. Por exemplo, este artigo sugere, supondo que eu entendi direito, que você acabou de obter um estimador de ML sob uma reformulação adequada do problema; MacKey, em seu livro, diz que o MaxEnt pode lhe dar coisas estranhas, e você não deve usá-lo nem para uma estimativa inicial em uma inferência bayesiana; etc .. Estou tendo problemas para encontrar boas comparações.

Minha pergunta é: você poderia fornecer uma explicação e / ou boas referências de pontos fracos e fortes do MaxEnt como um método de inferência estatística com comparações quantitativas com outros métodos (quando aplicados a modelos de brinquedos, por exemplo)?

entropy inference

— Francesco
fonte

19

Os métodos de inferência MaxEnt e Bayesiano correspondem a diferentes maneiras de incorporar informações ao seu procedimento de modelagem. Ambos podem ser colocados em terreno axiomático ( "Axiomas de entropia máxima", de John Skilling, e "Álgebra de provável inferência", de Cox ).

A abordagem bayesiana é simples de aplicar se o seu conhecimento anterior vier na forma de uma função real e mensurável sobre o espaço de hipóteses, denominado "anterior". MaxEnt é direto quando as informações aparecem como um conjunto de restrições rígidas no seu espaço de hipóteses. Na vida real, o conhecimento não vem na forma "anterior" nem na forma de "restrição"; portanto, o sucesso do seu método depende da sua capacidade de representar seu conhecimento na forma correspondente.

Em um problema de brinquedo, a média do modelo bayesiano fornecerá a menor perda média de log (média de muitos desenhos), quando o anterior corresponder à verdadeira distribuição de hipóteses. A abordagem MaxEnt fornecerá a menor perda de log do pior caso, quando suas restrições forem atendidas (o pior assumido entre todos os anteriores possíveis)

ETJaynes, considerado pai dos métodos "MaxEnt", também se baseava nos métodos bayesianos. Na página 1412 de seu livro , ele fornece um exemplo em que a abordagem bayesiana resultou em uma boa solução, seguida de um exemplo em que a abordagem MaxEnt é mais natural.

A probabilidade máxima leva essencialmente o modelo a ficar dentro de algum espaço pré-determinado do modelo e tentando ajustá-lo "o mais forte possível", no sentido de que ele terá a maior sensibilidade aos dados de todos os métodos de seleção de modelo restritos a esse modelo espaço. Enquanto MaxEnt e Bayesian são estruturas, o ML é um método de ajuste de modelo concreto e, para algumas opções de design específicas, o ML pode acabar com o método que sai da abordagem Bayesian ou MaxEnt. Por exemplo, MaxEnt com restrições de igualdade é equivalente ao ajuste de Máxima Verossimilhança de uma determinada família exponencial. Da mesma forma, uma aproximação à inferência bayesiana pode levar à solução regular de máxima verossimilhança. Se você escolher o seu anterior para tornar suas conclusões maximamente sensíveis aos dados, o resultado da inferência bayesiana corresponderá ao ajuste de Máxima Verossimilhança. Por exemplo, $p$

Os sucessos do aprendizado de máquina da vida real costumam ser uma mistura de várias filosofias. Por exemplo, "Campos Aleatórios" foram derivados dos princípios MaxEnt. A implementação mais popular da ideia, a CRF regularizada, envolve a adição de um "prior" nos parâmetros. Como resultado, o método não é realmente MaxEnt nem Bayesiano, mas influenciado pelas duas escolas de pensamento.

Reuni alguns links sobre fundamentos filosóficos das abordagens Bayesiana e MaxEnt aqui e aqui .

Nota sobre terminologia: às vezes as pessoas chamam seu método de bayesiano simplesmente se ele usar a regra de Bayes em algum momento. Da mesma forma, "MaxEnt" às vezes é usado para algum método que favorece soluções de alta entropia. Não é o mesmo que "Inferência MaxEnt" ou "Inferência Bayesiana", conforme descrito acima

— Yaroslav Bulatov
fonte

1

Obrigado. Eu não pensei que "A lógica da ciência" também falasse sobre essas coisas, eu definitivamente vou ler esse livro.

— Francesco

19

Para uma crítica divertida dos métodos de entropia máxima, recomendo a leitura de algumas postagens antigas de grupos de notícias em sci.stat.math e sci.stat.consult, particularmente as de Radford Neal:

Não conheço nenhuma comparação entre maxent e outros métodos: parte do problema parece ser que maxent não é realmente uma estrutura, mas uma diretiva ambígua ("quando confrontado com um desconhecido, simplesmente maximize a entropia"), que é interpretado de maneiras diferentes por pessoas diferentes.

— Simon Byrne
fonte

4

(+1) Esse tópico de 2002 é um inferno de uma troca de idéias.

— whuber

1

Observe que a "derivação wallis" de maxent dada por Edwin Jaynes em The Probability Theory: The Logic of Science fornece uma lógica "experimental" para maximizar a entropia. Em distribuições discretas, se partimos do princípio da indiferença (PID) e, basicamente, realizamos amostragem de rejeição nas probabilidades, usando as restrições para aceitar ou rejeitar as amostras uniformes aleatórias. A probabilidade resultante é então arbitrariamente próxima da distribuição máxima (discreta).

— probabilityislogic

3

É verdade que, no passado, MaxEnt e Bayes lidavam com diferentes tipos ou formas de informação. Eu diria que Bayes também usa restrições "difíceis", a probabilidade.

De qualquer forma, não é mais um problema, já que a Regra de Bayes (não a regra do produto) pode ser obtida na Entropia relativa máxima (MrE), e não de maneira ambígua:

É um mundo novo ...