Estou tentando procurar um bom argumento sobre por que alguém usaria a distância de Manhattan sobre a distância euclidiana no Machine Learning.
A coisa mais próxima que encontrei de um bom argumento até agora é nesta palestra do MIT .
Às 36:15, você pode ver nos slides a seguinte declaração:
"Normalmente, use a métrica euclidiana; Manhattan pode ser apropriada se diferentes dimensões não forem comparáveis " .
Logo após o professor dizer que, como o número de pernas de um réptil varia de 0 a 4 (enquanto os outros recursos são binários, variam apenas de 0 a 1), o recurso "número de pernas" acabará tendo um valor muito maior peso se for usada a distância euclidiana. Com certeza, isso é realmente certo. Mas também haveria esse problema se usássemos a distância de Manhattan (apenas que o problema seria um pouco atenuado, porque não calculamos a diferença como fazemos na distância euclidiana).
Uma maneira melhor de resolver o problema acima seria normalizar o recurso "número de pernas" para que seu valor sempre esteja entre 0 e 1.
Portanto, como existe uma maneira melhor de resolver o problema, parecia que o argumento de usar a distância de Manhattan nesse caso carecia de um ponto mais forte, pelo menos na minha opinião.
Alguém realmente sabe por que e quando alguém usaria a distância de Manhattan sobre os euclidianos? Alguém pode me dar um exemplo em que o uso da distância de Manhattan produziria melhores resultados?