Intuição gráfica de estatísticas em uma variedade

Em este post , você pode ler a declaração:

Os modelos são geralmente representados por pontos em uma variedade dimensional finita. $\theta$

Em Geometria Diferencial e Estatística, de Michael K Murray e John W Rice, esses conceitos são explicados em prosa legível, mesmo ignorando as expressões matemáticas. Infelizmente, existem muito poucas ilustrações. O mesmo vale para este post no MathOverflow.

Quero pedir ajuda com uma representação visual para servir como um mapa ou motivação para uma compreensão mais formal do tópico.

Quais são os pontos no coletor? Esta citação desta descoberta on-line indica que pode ser os pontos de dados ou os parâmetros de distribuição:

As estatísticas sobre coletores e geometria da informação são duas maneiras diferentes pelas quais a geometria diferencial atende às estatísticas. Enquanto nas estatísticas de variedades, são os dados que se encontram em uma variedade, na geometria da informação os dados estão em , mas a família parametrizada de funções de densidade de probabilidade de interesse é tratada como uma variedade. Tais variedades são conhecidas como variedades estatísticas. $R^n$

Eu desenhei este diagrama inspirado nesta explicação do espaço tangente aqui :

[ Edite para refletir o comentário abaixo sobre : $C^\infty$ ] Em uma variedade, , o espaço tangente é o conjunto de todas as derivadas possíveis ("velocidades") em um ponto associado a todas as curvas possíveis no coletor passando pelaIsso pode ser visto como um conjunto de mapas de todas as curvas que atravessam ou seja definido como a composição , com indicando uma curva (função da linha real até a superfície do coletor $(\mathcal M)$ $p\in \mathcal M$ $(\psi: \mathbb R \to \mathcal M)$ $p.$ $p,$ $C^\infty (t)\to \mathbb R,$ $\left(f \circ \psi \right )'(t)$ $\psi$ $\mathcal M$ ) percorrendo o ponto e representado em vermelho no diagrama acima; e representando uma função de teste. Os "iso " linhas de contorno brancas mapear para o mesmo ponto na linha real, e cercar o ponto . $p,$ $f,$ $f$ $p$

A equivalência (ou uma das equivalências aplicadas às estatísticas) é discutida aqui e se relacionaria à seguinte citação :

Se o espaço de parâmetro para uma família exponencial contiver um conjunto aberto dimensional , será chamado de classificação completa. $s$

Uma família exponencial que não possui classificação completa é geralmente chamada de família exponencial curva, pois normalmente o espaço do parâmetro é uma curva em de dimensão menor que $\mathcal R^s$ $s.$

Isso parece fazer a interpretação do gráfico da seguinte maneira: os parâmetros distributivos (neste caso, as famílias de distribuições exponenciais) estão no coletor. Os pontos de dados em seriam mapeados para uma linha no coletor através da função no caso de um problema de otimização não linear com deficiência de classificação. Isso seria paralelo ao cálculo da velocidade na física: procurando a derivada da função ao longo do gradiente das linhas "iso-f" (derivada direcional em laranja):A função desempenharia o papel de otimizar a seleção de um parâmetro distributivo como a curva $\mathbb R$ $\psi: \mathbb R \to \mathcal M$ $f$ $\left(f \circ \psi \right)'(t).$ $f: \mathbb M \to \mathbb R$ $\psi$ viaja ao longo das linhas de contorno de no coletor. $f$

ARTIGO ADICIONADO:

É importante notar que esses conceitos não estão imediatamente relacionados à redução da dimensionalidade não linear no ML. Eles parecem mais semelhantes à geometria da informação . Aqui está uma citação:

É importante ressaltar que as estatísticas sobre variedades são muito diferentes da aprendizagem por variedades. O último é um ramo do aprendizado de máquina, onde o objetivo é aprender uma variedade latente a partir de dados avaliados por . Normalmente, a dimensão do coletor latente procurado é menor que . O coletor latente pode ser linear ou não linear, dependendo do método particular usado. $R^n$ $n$

As seguintes informações de Estatísticas sobre coletores com aplicações para modelagem de deformações de formas de Oren Freifeld :

Enquanto geralmente é não-linear, podemos associar um espaço tangente, denotado por , a cada ponto . é um espaço vectorial, cuja dimensão é a mesma que a de . A origem do está na . Se está embutido em algum espaço euclidiano, podemos pensar em como um subespaço afim, tal que: 1) toca em ; 2) pelo menos localmente, fica completamente em um dos lados. Elementos de TpM são chamados vetores tangentes. $M$ $TpM$ $p \in M$ $TpM$ $M$ $TpM$ $p$ $M$ $TpM$ $M$ $p$ $M$

[...] Em variedades, os modelos estatísticos são frequentemente expressos em espaços tangentes.

[...]

[Consideramos dois] conjuntos de dados consistem em pontos em : $M$

$D_L = \{p_1, \cdots , p_{NL}\} \subset M$ ;

$D_S = \{q_1, \cdots , q_{NS}\} \subset M$

Let e representam dois, possivelmente desconhecido, pontos em . Supõe-se que os dois conjuntos de dados atendam às seguintes regras estatísticas: $µ_L$ $µ_S$ $M$

$\{\log_{\mu L} (p_1), \cdots , \log_{\mu L}(p_{NL})\} \subset T_{\mu L}M, \quad \log_{\mu L}(p_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_L)$ $\{\log_{\mu S} (q_1), \cdots , \log_{\mu S}(q_{NS})\} \subset T_{\mu S}M, \quad \log_{\mu S}(q_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_S)$

[...]

Em outras palavras, quando é expresso (como vetores tangentes) no espaço tangente (para ) em , ele pode ser visto como um conjunto de amostras de iid de um Gaussiano de média zero com covariância . Da mesma forma, quando é expresso no espaço tangente em , pode ser visto como um conjunto de amostras de iid de um Gaussiano de média zero com covariância . Isso generaliza o caso euclidiano. $D_L$ $M$ $\mu_L$ $\Sigma_L$ $D_S$ $\mu_S$ $\Sigma_S$

Na mesma referência, encontro o exemplo mais próximo (e praticamente único) on-line desse conceito gráfico sobre o qual estou perguntando:

Isso indicaria que os dados estão na superfície do coletor expresso como vetores tangentes e os parâmetros seriam mapeados em um plano cartesiano?

— Antoni Parellada
fonte

O que você está tentando fazer aqui? Desenhar coletores? A maioria deles é muito chata para desenhar. Por exemplo, tente a distribuição gaussiana.

— Aksakal

Eu normalmente pensaria em espaços de parâmetros como espaços vetoriais, por exemplo, . Se eu pensasse em "variedades" paramétricas, a primeira coisa que me ocorreria seria "sistemas de restrição", por exemplo, . Caso contrário, por que o espaço não está "completo"? (O que está definindo o subconjunto que é o "distribuidor"?)

θ \in R^{n}

$\theta\in\mathbb{R}^n$

f (θ) = 0

$f(\theta)=0$

— GeoMatt22

Espero que o @whuber apareça e elabore os comentários que estava fazendo no chat.

— gung - Restabelece Monica

A resposta curta para sua pergunta editada é "não". O espaço tangente descreve as velocidades de todos os caminhos suaves no coletor. Seu principal papel na estatística é maximizar as probabilidades, onde o coletor descreve uma família finitamente parametrizada. Na "aprendizagem múltipla", uma variedade é usada como uma aproximação local aos dados - é uma versão curva do "espaço da coluna" na regressão linear. Lá, o espaço tangente é incorporado ao espaço euclidiano do ambiente. Localmente, descreve as "direções" dos dados e seu pacote normal fornece as instruções de "erro".

— whuber

Sim: o espaço cotangente em pode ser definido como a derivação de germes de funções em torno de . O espaço tangente em (portanto!) É simplesmente o seu dual. e adquirir uma topologia - isto é, admitir uma noção de dois espaços tangentes e ser "próximo" - por meio das coordenadas gráficos sobre . Isso reduz a definição (e o problema de visualização) à definição do espaço tangente . Este é o conjunto de todos os vetores originados em . Spivak, em Cálculo sobre coletores

T_{p}^{*} M

$T_p^{*}M$

p

$p$

p

$p$

p

$p$

T^{*} M

$T^{*}M$

T M

$TM$

T_{p} M

$T_pM$

T_{q} M

$T_qM$

M

$M$

T_{x} R^{n}

$T_x\mathbb{R}^n$

x

$x$ , fornece uma definição clara e elementar desse tipo.

— whuber

Respostas:

Uma família de distribuições de probabilidade pode ser analisada como os pontos em uma variedade com coordenadas intrínsecas correspondentes aos parâmetros da distribuição. A idéia é evitar uma representação com uma métrica incorreta: Gaussianos univariados podem ser plotados como pontos no coletor euclidiano , como no lado direito do gráfico abaixo com a média no eixo e o DP no eixo (metade positiva no caso de representar a variância): $(\Theta)$ $\mathcal N(\mu,\sigma^2),$ $\mathbb R^2$ $x$ $y$

No entanto, a matriz de identidade (distância euclidiana) não medirá o grau de (des) semelhança entre 's individuais: nas curvas normais à esquerda do gráfico acima, dado um intervalo no domínio, a área sem sobreposição (em azul escuro) é maior para curvas gaussianas com menor variação, mesmo que a média seja mantida fixa. De fato, a única métrica riemanniana que “faz sentido” para variedades estatísticas é a métrica de informações de Fisher . $\mathrm{pdf}$

Em distância de informação de Fisher: uma leitura geométrica , Costa SI, Santos SA e Strapasson JE aproveitam a semelhança entre a matriz de informações de Fisher das distribuições gaussianas e a métrica no modelo de disco de Beltrami-Pointcaré para derivar uma fórmula fechada.

O cone "norte" do hiperboloide torna-se um coletor não euclidiano, no qual cada ponto corresponde a uma média e um desvio padrão (espaço dos parâmetros) e a menor distância entre por exemplo, e no diagrama abaixo, é uma curva geodésica projetada (mapa do gráfico) no plano equatorial como linhas retas hiperparabólicas e permitindo a medição de distâncias entre através de um tensor métrico - a métrica de informações de Fisher : $x^2 + y^2 - x^2 = -1$ $\mathrm {pdf's,}$ $P$ $Q,$ $\mathrm{pdf's}$ $g_{\mu\nu}\;(\Theta)\;\mathbf e^\mu\otimes \mathbf e^\nu$

D (P (x; θ_{1}), Q (x; θ_{2})) = min_{θ (t) | θ (0) = θ_{1}, θ (1) = θ_{2}} \int_{0}^{1} \sqrt{{(\frac{d θ}{d t})}^{⊤} I (θ) \frac{d θ}{d t} d t}

$D\,\left ( P(x;\theta_1)\,,\,Q(x;\theta_2) \right)=\min_{\theta(t)\,|\,\theta(0)=\theta_1\;,\;\theta(1)=\theta_2}\;\int_0^1 \; \sqrt{\left(\frac{\mathrm d\theta}{\mathrm dt} \right)^\top\;I(\theta)\frac{\mathrm d \theta}{\mathrm dt}dt}$

com

I (θ) = \frac{1}{σ^{2}} [\begin{matrix} 1 & 0 \\ 0 & 2 \end{matrix}]

$I(\theta) = \frac{1}{\sigma^2}\begin{bmatrix}1&0\\0&2 \end{bmatrix}$

A divergência de Kullback-Leibler está intimamente relacionada, embora sem a geometria e a métrica associada.

E é interessante notar que a matriz de informações de Fisher pode ser interpretada como a entropia do Hessiano da Shannon :

g_{i j} (θ) = - E [\frac{\partial^{2} \log p (x; θ)}{\partial θ_{i} \partial θ_{j}}] = \frac{\partial^{2} H (p)}{\partial θ_{i} \partial θ_{j}}

$g_{ij}(\theta)=-E\left[ \frac{\partial^2\log p(x;\theta)}{\partial \theta_i \partial\theta_j} \right]=\frac{\partial^2 H(p)}{\partial \theta_i \partial \theta_j}$

com

H (p) = - \int p (x; θ) \log p (x; θ) d x .

$H(p) = -\int p(x;\theta)\,\log p(x;\theta) \mathrm dx.$

Este exemplo é similar em conceito ao mapa estereográfico da Terra mais comum .

A incorporação multidimensional de ML ou a aprendizagem múltipla não é abordada aqui.

— Antoni Parellada
fonte

Há mais de uma maneira de vincular probabilidades à geometria. Tenho certeza que você já ouviu falar de distribuições elípticas (por exemplo, Gaussian). O próprio termo implica em link de geometria e é óbvio quando você desenha sua matriz de covariância. Com os coletores, basta colocar todos os valores de parâmetros possíveis no sistema de coordenadas. Por exemplo, um coletor gaussiano teria duas dimensões: . Você pode ter qualquer valor de mas apenas variações positivas . Portanto, a variedade gaussiana seria a metade de todo o espaço . Não é tão interessante $\mu,\sigma^2$ $\mu\in R$ $\sigma^2>0$ $R^2$

— Aksakal
fonte

Acho que pensei que um "coletor" deveria ter uma dimensão menor do que seu espaço de incorporação? Então um meio espaço não conta?

— GeoMatt22

Com Gaussian, nem é uma variedade, certo. Você precisa de restrições, por isso torna-se uma espécie de um avião ou de linha

— Aksakal

Estou tentando entender as implicações de sua resposta ... Você quer dizer " um link de geometria"? Além disso, eu encontrei este post relacionado no MathOverflow .

— Antoni Parellada 11/10

Torna-se mais interessante com uma métrica apropriada ... como a de Fisher-Rao e depois se torna o meio-lugar hiperbólico de Poincare en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model

— mic

Para todos: (1) as variedades que descrevem famílias paramétricas são variedades intrínsecas : elas não precisam ser incorporadas a nenhum espaço vetorial. (2) Elas são mais do que apenas variedades diferenciáveis: as Informações de Fisher lhes conferem uma métrica riemanniana - uma distância local - que lhes permite estudar geometricamente. Isso transforma a "metade do espaço inteiro " em uma superfície curva.

R^{2}

$\mathbb{R}^2$

— whuber