Além dos núcleos de Fisher

Por um tempo, pareceu que Fisher Kernels poderia se tornar popular, pois parecia ser uma maneira de construir kernels a partir de modelos probabilísticos. No entanto, raramente os vi sendo usados na prática, e tenho muita autoridade que eles tendem a não funcionar muito bem. Eles contam com o cálculo das informações de Fisher - citando a Wikipedia:

as informações de Fisher são negativas da expectativa da segunda derivada em relação a θ do logaritmo natural de f. A informação pode ser vista como uma medida da "curvatura" da curva de suporte próxima à estimativa de máxima verossimilhança (MLE) de θ.

Tanto quanto posso dizer, isso significa que a função do kernel entre dois pontos é a distância ao longo dessa superfície curva - estou certo?

Entretanto, isso pode ser problemático para uso em métodos de kernel, como

O MLE pode ser uma estimativa muito ruim para um determinado modelo
A curvatura da curva de suporte ao redor do MLE pode não ser útil para discriminar entre instâncias, por exemplo, se a superfície de probabilidade estiver muito alta
Isso parece jogar fora muita informação sobre o modelo

Se for esse o caso, existem formas mais modernas de construir kernels a partir de métodos probabilísticos? Por exemplo, poderíamos usar um conjunto de espera para usar as estimativas do MAP da mesma maneira? Que outras noções de distância ou similaridade dos métodos probabilísticos poderiam funcionar para construir uma função (válida) do kernel?

— tdc
fonte

Você está certo sobre as três questões que levanta e sua interpretação é exatamente correta.

As pessoas analisaram outras direções para construir kernels a partir de modelos probabilísticos:

Moreno et al. proponho Kullback-Leibler, embora quando isso satisfaça as condições de Mercer não fosse bem compreendido quando olhei para esse problema quando o li.
Jebara et al. propor produto interno no espaço de distribuições. Este documento parece muito com o que você procura: você pode baixá-lo aqui .

Eu os li há algum tempo (2008), sem saber como essa área evoluiu nos últimos anos.

Também existem maneiras não probabilísticas de fazer isso; as pessoas em Bioinformática examinaram tipos de programação dinâmica de coisas no espaço de strings e assim por diante. Essas coisas nem sempre são PSD e têm problemas próprios.

— carlosdc
fonte

jmlr.org/papers/volume10/martins09a/martins09a.pdf desenvolve uma teoria de kernels relacionados à divergência de KL que são e não são definidas positivamente.

— Dougal