Quando alguém usaria a distância de Manhattan como oposta à distância euclidiana?

18

Estou tentando procurar um bom argumento sobre por que alguém usaria a distância de Manhattan sobre a distância euclidiana no Machine Learning.

A coisa mais próxima que encontrei de um bom argumento até agora é nesta palestra do MIT .

Às 36:15, você pode ver nos slides a seguinte declaração:

"Normalmente, use a métrica euclidiana; Manhattan pode ser apropriada se diferentes dimensões não forem comparáveis " .

Logo após o professor dizer que, como o número de pernas de um réptil varia de 0 a 4 (enquanto os outros recursos são binários, variam apenas de 0 a 1), o recurso "número de pernas" acabará tendo um valor muito maior peso se for usada a distância euclidiana. Com certeza, isso é realmente certo. Mas também haveria esse problema se usássemos a distância de Manhattan (apenas que o problema seria um pouco atenuado, porque não calculamos a diferença como fazemos na distância euclidiana).

Uma maneira melhor de resolver o problema acima seria normalizar o recurso "número de pernas" para que seu valor sempre esteja entre 0 e 1.

Portanto, como existe uma maneira melhor de resolver o problema, parecia que o argumento de usar a distância de Manhattan nesse caso carecia de um ponto mais forte, pelo menos na minha opinião.

Alguém realmente sabe por que e quando alguém usaria a distância de Manhattan sobre os euclidianos? Alguém pode me dar um exemplo em que o uso da distância de Manhattan produziria melhores resultados?

machine-learning classification distance

— Tiago
fonte

4

De acordo com este artigo interessante, a distância de Manhattan (norma L1) pode ser preferível à distância euclidiana (norma L2) para o caso de dados de alta dimensão:

https://bib.dbvis.de/uploadedFiles/155.pdf

Os autores do artigo avançam ainda mais e sugerem o uso de distâncias da norma Lk, com um valor fracionário de k, para dados dimensionais muito altos, a fim de melhorar os resultados de algoritmos baseados em distância, como clustering.

— Pablo Suau
fonte

stats.stackexchange.com/a/99191 fornece uma resposta mais completa

— mic

3

Eu posso sugerir algumas idéias, da wikipedia .

Se você deseja colocar menos ênfase nos valores discrepantes, a distância de manhattan tentará reduzir todos os erros igualmente, pois o gradiente tem magnitude constante.
Se o seu ruído é distribuído em Laplaciano, o MLE é encontrado minimizando a estimativa de Manhattan.

— Jacques Kvam
fonte

3

Encontrei algo que pode ser intuição sobre esse problema no Hands-On Machine Learning com o Scikit-Learn e o TensorFlow

Tanto o RMSE quanto o MAE são maneiras de medir a distância entre dois vetores: o vetor de previsões e o vetor de valores-alvo. São possíveis várias medidas ou normas de distância:

A computação da raiz de uma soma dos quadrados (RMSE) corresponde à norma euclidiana: é a noção de distância com a qual você está familiarizado. Também é chamada de norma ℓ2 (...)

O cálculo da soma dos absolutos (MAE) corresponde à norma ℓ1, (...). Às vezes, é chamada de norma Manhattan, porque mede a distância entre dois pontos em uma cidade se você puder apenas viajar ao longo de quarteirões ortogonais.

De maneira mais geral, (...) ℓ 0 apenas fornece o número de elementos diferentes de zero no vetor e ℓ∞ fornece o valor absoluto máximo no vetor.

Quanto mais alto o índice de normas, mais ele se concentra em grandes valores e negligencia os pequenos. É por isso que o RMSE é mais sensível a valores discrepantes do que o MAE. Mas quando os valores extremos são exponencialmente raros (como em uma curva em forma de sino), o RMSE tem um desempenho muito bom e é geralmente preferido.

— Damian Melniczuk
fonte

2

O uso da distância de Manhattan depende muito do tipo de sistema de coordenadas que seu conjunto de dados está usando. Enquanto a distância euclidiana fornece a distância mais curta ou mínima entre dois pontos, Manhattan tem implementações específicas.

Por exemplo, se usarmos um conjunto de dados do xadrez, o uso da distância de Manhattan é mais apropriado que a distância euclidiana. Outro uso seria quando estiver interessado em saber a distância entre casas que estão a poucos quarteirões de distância.

Além disso, convém considerar a distância de Manhattan se as variáveis de entrada não forem de tipo semelhante (como idade, sexo, altura etc.). Devido à maldição da dimensionalidade, sabemos que a distância euclidiana se torna uma má escolha à medida que o número de dimensões aumenta.

Em resumo: a distância de Manhattan geralmente funciona apenas se os pontos são organizados na forma de uma grade e o problema em que estamos trabalhando dá mais prioridade à distância entre os pontos apenas junto às grades, mas não à distância geométrica.

— Saurabh Jain
fonte