Por que devemos discutir comportamentos de convergência de diferentes estimadores em diferentes topologias?

No primeiro capítulo do livro Geometria Algébrica e Teoria Estatística da Aprendizagem, que fala sobre a convergência de estimativas em diferentes espaços funcionais, ele menciona que a estimativa bayesiana corresponde à topologia de distribuição de Schwartz, enquanto a estimativa de máxima verossimilhança corresponde à topologia de super-norma. (na página 7):

Por exemplo, sup-norma, $L^p$ -orm, topologia fraca do espaço Hilbert $L^2$ , topologia de distribuição Schwartz e assim por diante. Depende fortemente da topologia do espaço de função se a convergência $K_n(w)\to K(w)$ mantém ou não. A estimativa de Bayes corresponde à topologia de distribuição de Schwartz, enquanto a probabilidade máxima ou um método a posteriori corresponde à norma. Essa diferença afeta fortemente os resultados da aprendizagem em modelos singulares.

em que $K_n(w)$ e $K(w)$ são, respectivamente, o empírica KL-divergência (soma sobre observações) e o verdadeiro KL-divergência (WRT integrante da distribuição de dados) entre o verdadeiro modelo e um modelo paramétrico (com parâmetro $w$ ).

Alguém pode dar uma explicação ou me indicar qual lugar do livro tem a justificativa? Obrigado.

Atualização : o conteúdo dos direitos autorais é removido.

bayesian maximum-likelihood statistical-learning

— ziyuang
fonte

o que são

K

$K$

K_{n}

$K_n$

— Taylor

@ Taylor Adicionei algumas informações necessárias.

— ziyuang

Responderei sua pergunta mais tarde, conheço o livro de watanabe relativamente bem. No entanto, não gosto muito da maneira como você cita um livro. Pode causar um problema em potencial de direitos autorais se você colocar seções diretamente aqui. Usar números de página e digitar citações com o babador apropriado será uma escolha melhor.

— Henry.L

@ Henry.L Obrigado, e o conteúdo dos direitos autorais é removido.

— ziyuang

@Henry: Embora eu acredite que há valor em ser cauteloso e consciente na reprodução de partes de obras protegidas por direitos autorais, acho que, neste caso, ziyuang não tem absolutamente nada com que se preocupar. O uso de pequenos trechos do OP para críticas acadêmicas se enquadra muito bem na doutrina do "uso justo" (EUA). De fato, ter a reprodução exata às vezes pode ser especialmente valiosa, pois remove quaisquer ambiguidades que poderiam ser introduzidas pelas reformulações do conteúdo. (Tudo o que disse, IANAL.) #

— 1112

Para entender a discussão de Watanabe, é importante perceber o que ele quis dizer com "singularidade". A singularidade (estrita) coincide com a noção geométrica de métrica singular em sua teoria.

p.10 [Watanabe]: "Um modelo estatístico é considerado regular se for identificável e tem uma métrica definida positiva. Se um modelo estatístico não é regular, é chamado estritamente singular". $p(x\mid w)$

Na prática, a singularidade geralmente surge quando a métrica de informações de Fisher induzida pelo modelo degenerada no coletor definido pelo modelo, como baixa classificação ou casos esparsos em trabalhos de "aprendizado de máquina".

O que Watanabe disse sobre a convergência da divergência empírica de KL para seu valor teórico pode ser entendido a seguir. Uma origem da noção de divergência vem de estatísticas robustas. Os estimadores M, que incluem MLE como um caso especial com função de contraste , são geralmente discutidos usando topologia fraca. É razoável discutir o comportamento da convergência usando topologia fraca sobre o espaço (a variedade de todas as medidas possíveis definidas no espaço polonês $\rho(\theta,\delta(X))=-\log p(X\mid \theta)$ $M(\cal{X})$ $\cal{X}$ ) porque queremos estudar o comportamento da robustez do MLE. Um teorema clássico em [Huber] afirmou que com a função de divergência bem separada . $D(\theta_0,\theta)=E_{\theta_{0}}\rho(\theta,\delta)$

inf_{| θ - θ_{0 0} | \geq ϵ} (| D (θ_{0 0}, θ) - D (θ_{0 0}, θ_{0 0}) |) > 0 0

$\inf_{|\theta-\theta_0|\geq\epsilon}(|D(\theta_0,\theta)-D(\theta_0,\theta_0)| )>0$ e boa aproximação empírica da função de contraste à divergência,

juntamente com a regularidade, podemos produzir consistência no sentido

sup_{θ} | \frac{1}{n} \sum_{Eu} ρ (θ, δ (X_{Eu})) - D (θ_{0 0}, θ) | \to 0 0, n \to \infty

$\sup_{\theta}\left|\frac{1}{n}\sum_{i}\rho(\theta,\delta(X_i))- D(\theta_0,\theta)\right|\rightarrow 0,n\rightarrow\infty$

irá convergir para

na probabilidade

. Este resultado requer condições muito mais precisas se comparamos com o resultado de Doob [Doob] em consistência fraca do estimador Bayesiano.

\hat{θ_{n}} : = {uma r g m Eu n}_{θ} ρ (θ, δ (X_{n}))

$\hat{\theta_n}:=\mathrm{arg\,min}_{\theta}\rho(\theta,\delta(X_n))$

θ_{0}

$\theta_0$

P_{θ_{0}}

$P_{\theta_0}$

Então aqui os estimadores bayesianos e o MLE divergem. Se ainda usarmos uma topologia fraca para discutir a consistência dos estimadores bayesianos, não faz sentido porque os estimadores bayesianos sempre (com probabilidade 1) serão consistentes por Doob. Portanto, uma topologia mais apropriada é a topologia de distribuição de Schwarz, que permite derivadas fracas e a teoria de von Mises entrou em cena. Barron tinha um relatório técnico muito bom sobre esse tópico, como poderíamos usar o teorema de Schwartz para obter consistência.

$D$

O "resultado singular da aprendizagem" é afetado porque, como vemos, o teorema da consistência de Doob garante que os estimadores bayesianos sejam fracamente consistentes (mesmo no modelo singular) em topologia fraca, enquanto o MLE deve atender a certos requisitos na mesma topologia.

Apenas uma palavra, [Watanabe] não é para iniciantes. Ela tem implicações profundas em conjuntos analíticos reais, que exigem mais maturidade matemática do que a maioria dos estatísticos, portanto, provavelmente não é uma boa ideia lê-la sem a orientação apropriada.

$\blacksquare$

[Watanabe] Watanabe, Sumio. Geometria algébrica e teoria estatística de aprendizagem. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "O comportamento das estimativas de máxima verossimilhança em condições fora do padrão". Anais do quinto simpósio de Berkeley sobre estatística matemática e probabilidade. Vol. 1. No. 1. 1967.

[Doob] Doob, Joseph L. "Aplicação da teoria de martingales". O cálculo das probabilidades e aplicações (1949): 23-27.

— Henry.L
fonte

Estou tentando dar alguma intuição para partes da resposta, então me corrija se estiver errado. O estimador de Bayes é consistente se o considerarmos como um estimador de pontos (MAP, em vez de uma distribuição probabilística). Requer menos condições para sua consistência do que o MLE intuitivamente, devido à atuação prévia como regularização. Por outro lado, a topologia de distribuição de Schwartz é mais adequada quando vemos o estimador Bayes como uma distribuição, também ajuda a construir uma relação mais próxima entre a consistência do MLE e do estimador Bayes, de modo que o caso em que um diverge e o outro converge não aconteça. .

— ziyuang 31/01

Desculpe, mas acho que sua explicação não está correta. O anterior atua como uma regularização, mas que não controla necessariamente a taxa de convergência. Priores, na verdade planos, diminuem a convergência. Eles são simplesmente duas topologias diferentes.

— precisa saber é o seguinte