No cluster baseado em gráfico, por que é preferível usar o kernel Gaussiano em vez da distância entre dois pontos como métrica de similaridade?
No cluster baseado em gráfico, por que é preferível usar o kernel Gaussiano em vez da distância entre dois pontos como métrica de similaridade?
Respostas:
Sejamos precisos. "Distância" tem muitos significados na ciência de dados, acho que você está falando sobre distância euclidiana .
O núcleo gaussiano é uma função não linear da distância euclidiana.
A função do kernel diminui com a distância e varia entre zero e um. Na distância euclidiana, o valor aumenta com a distância. Assim, a função do kernel é uma métrica mais útil para ponderar observações.
O fato de estar delimitado entre zero e um é uma propriedade agradável, enquanto a distância absoluta (pode ser qualquer coisa) na distância euclidiana pode causar instabilidade e dificuldade na modelagem.
A distância euclidiana (sem o sinal negativo) não é uma medida de similaridade, é uma função de distância. O núcleo gaussiano é uma medida de similaridade.
Você pode pensar que o kernel gaussiano é uma função de normalização para a distância euclidiana.
Da distância euclidiana, você pode derivar muitas medidas de similaridade das funções do núcleo (polinomial, exponencial, Maternal, personalizada ...), das quais nenhuma é a priori melhor ou pior que o núcleo gaussiano. Tudo depende dos seus dados e do que você espera.
Dada uma função do kernel, você também pode escolher qualquer definição de distância adequada ao seu sentimento: distância euclidiana ponderada, norma , norma , norma , distância do movedor de terra ...
Agora, o núcleo gaussiano com distância euclidiana é muito comum, pois é bastante intuitivo e fornece propriedades úteis, como suavidade.
No espaço euclidiano, onde os eixos são representados por vetores , espaço tridimensional, a distância pode ser obtida conectando os dois pontos e encontrando o comprimento da conexão. Esse espaço é usado sempre que a base, cada uma das direções, é independente. Em outras palavras, sempre que for necessário encontrar a distância real, a distância euclidiana pode ser empregada se as características ou variáveis, eixos de fato, forem independentes. Pelo contrário, sempre que as variáveis são correlacionadas, a distância euclidiana não pode ser empregada, porque os eixos não são mais independentes. Em situações que não são raras, o Mahalanobis pode ser utilizado. Sua forma é como a distância gaussiana.