A média minimiza o erro ao quadrado (ou a norma L2, veja aqui ou aqui ); portanto, a escolha natural da variação para medir a distância da média é usar o erro ao quadrado (veja aqui o motivo pelo qual o fazemos). Por outro lado, a mediana minimiza o erro absoluto (norma L1), ou seja, é um valor que está no "meio" dos seus dados; portanto, a distância absoluta da mediana (chamada Desvio Absoluto Mediano ou MAD) parece ser uma melhor medida do grau de variabilidade em torno da mediana. Você pode ler mais sobre essas relações neste tópico .
Em resumo, a variação difere da MAD de como eles definem o ponto central dos seus dados e isso influencia a maneira como medimos a variação dos pontos de dados em torno deles. A quadratura dos valores faz com que os discrepantes tenham maior influência sobre o ponto central (média), enquanto que no caso da mediana, todos os pontos têm o mesmo impacto sobre ele, portanto a distância absoluta parece mais apropriada.
Isso também pode ser demonstrado por simulação simples. Se você comparar as distâncias quadradas dos valores da média e da mediana, a distância quadrada total será quase sempre menor da média do que da mediana. Por outro lado, a distância absoluta total é menor da mediana e depois da média. O código R para a realização da simulação está publicado abaixo.
sqtest <- function(x) sum((x-mean(x))^2) < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))
mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))
mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))
mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))
No caso de usar mediana em vez de média na estimativa dessa "variância", isso levaria a estimativas mais altas do que com o uso da média, como é feito tradicionalmente.
A propósito, as relações das normas L1 e L2 podem ser consideradas também no contexto bayesiano, como neste tópico .