Para entender a discussão de Watanabe, é importante perceber o que ele quis dizer com "singularidade". A singularidade (estrita) coincide com a noção geométrica de métrica singular em sua teoria.
p.10 [Watanabe]: "Um modelo estatístico é considerado regular se for identificável e tem uma métrica definida positiva. Se um modelo estatístico não é regular, é chamado estritamente singular".p ( x ∣ w )
Na prática, a singularidade geralmente surge quando a métrica de informações de Fisher induzida pelo modelo degenerada no coletor definido pelo modelo, como baixa classificação ou casos esparsos em trabalhos de "aprendizado de máquina".
O que Watanabe disse sobre a convergência da divergência empírica de KL para seu valor teórico pode ser entendido a seguir. Uma origem da noção de divergência vem de estatísticas robustas. Os estimadores M, que incluem MLE como um caso especial com função de contraste , são geralmente discutidos usando topologia fraca. É razoável discutir o comportamento da convergência usando topologia fraca sobre o espaço M ( X ) (a variedade de todas as medidas possíveis definidas no espaço polonês Xρ ( θ , δ( X) ) = - logp ( X∣ θ )M( X)X) porque queremos estudar o comportamento da robustez do MLE. Um teorema clássico em [Huber] afirmou que com a função de divergência bem separada . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D ( θ0 0, θ ) = Eθ0 0ρ ( θ , δ)
inf| θ- θ0 0| ≥ϵ( | D ( θ0 0, θ ) - D ( θ0 0, θ0 0) | ) > 0
e boa aproximação empírica da função de contraste à divergência,
juntamente com a regularidade, podemos produzir consistência no sentido
^ θ n :=argsupθ∣∣∣1n∑Euρ ( θ , δ( XEu) ) - D ( θ0 0, θ ) ∣∣∣→ 0 , n → ∞
irá convergir para
θ 0 na probabilidade
P θ 0 . Este resultado requer condições muito mais precisas se comparamos com o resultado de Doob [Doob] em consistência fraca do estimador Bayesiano.
θn^: = a r gm i nθρ ( θ , δ( Xn) ))
θ0 0Pθ0 0
Então aqui os estimadores bayesianos e o MLE divergem. Se ainda usarmos uma topologia fraca para discutir a consistência dos estimadores bayesianos, não faz sentido porque os estimadores bayesianos sempre (com probabilidade 1) serão consistentes por Doob. Portanto, uma topologia mais apropriada é a topologia de distribuição de Schwarz, que permite derivadas fracas e a teoria de von Mises entrou em cena. Barron tinha um relatório técnico muito bom sobre esse tópico, como poderíamos usar o teorema de Schwartz para obter consistência.
D
O "resultado singular da aprendizagem" é afetado porque, como vemos, o teorema da consistência de Doob garante que os estimadores bayesianos sejam fracamente consistentes (mesmo no modelo singular) em topologia fraca, enquanto o MLE deve atender a certos requisitos na mesma topologia.
Apenas uma palavra, [Watanabe] não é para iniciantes. Ela tem implicações profundas em conjuntos analíticos reais, que exigem mais maturidade matemática do que a maioria dos estatísticos, portanto, provavelmente não é uma boa ideia lê-la sem a orientação apropriada.
■
[Watanabe] Watanabe, Sumio. Geometria algébrica e teoria estatística de aprendizagem. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "O comportamento das estimativas de máxima verossimilhança em condições fora do padrão". Anais do quinto simpósio de Berkeley sobre estatística matemática e probabilidade. Vol. 1. No. 1. 1967.
[Doob] Doob, Joseph L. "Aplicação da teoria de martingales". O cálculo das probabilidades e aplicações (1949): 23-27.