Alguém usa as métricas ou L .5 para agrupar, em vez de L 2 ?
Aggarwal et al.,
Sobre o surpreendente comportamento das métricas de distância no espaço de alta dimensão,
disseram (em 2001) que
é consistentemente mais preferível do que a métrica de distância euclidiana L 2 para aplicações de mineração de dados de alta dimensão
e afirmou que ou L .1 podem ser melhores ainda.
Razões para usar ou L .5 poderia ser teórico ou experimental, por exemplo, sensibilidade a outliers / papéis de Kaban, ou programas executados em dados reais ou sintéticos (reproduzível por favor). Um exemplo ou uma imagem ajudaria a intuição do meu leigo.
Esta pergunta é um acompanhamento da resposta de Bob Durrant para Quando-é-o-próximo-vizinho-significativo-hoje . Como ele diz, a escolha de será dependente dos dados e do aplicativo; no entanto, relatos de experiências reais seriam úteis.
Notas adicionadas terça-feira, 7 de junho:
Tropecei em "Análise estatística de dados com base na norma L1 e métodos relacionados", Dodge, 2002, 454p, isbn 3764369205 - dezenas de artigos de conferência.
Alguém pode analisar a concentração de distância para recursos exponenciais iid? Uma razão para exponenciais é que ; outro (não especialista) é que é a distribuição de entropia máxima ≥ 0; um terceiro é que alguns conjuntos de dados reais, em particular SIFTs, parecem aproximadamente exponenciais.