Pode ajudar a fornecer um pouco mais de uma visão geral do MMD.
Em geral, o MMD é definido pela idéia de representar distâncias entre distribuições como distâncias entre incorporamentos médios de recursos. Ou seja, dizer que temos distribuições P e Q mais de um conjunto X . O MMD é definido por um mapa de características φ : X→ H , onde H é o que é chamado de espaço Hilbert do kernel em reprodução. Em geral, o MMD é
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Como um exemplo, podemos ter X=H=Rd e φ(x)=x . Nesse caso:
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
de modo que este é apenas o MMD distância entre os meios das duas distribuições. Distribuições correspondentes como essa corresponderão a seus meios, embora possam diferir em sua variação ou de outras maneiras.
X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′
X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
φ
k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Atualização: aqui é de onde vem o "máximo" no nome.
φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
f
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥f=g/∥g∥
fH