Várias boas respostas ainda deixam espaço para mais comentários.
Primeiro, ninguém se opôs à idéia de que a mediana se destina a eliminar discrepâncias, mas eu a qualificarei. O significado pretendido é evidente, mas é fácil para dados reais serem mais complicados. No máximo, a mediana tem como objetivo descontar ou ignorar discrepâncias, mas mesmo isso não é garantido. Por exemplo, com classificações de 1 1 1 5 5 5, a mediana e a média concordam em 3, para que tudo possa parecer bom. Porém, um extra de 5 irá inclinar a mediana para 5 e um extra de 1 inclinará a mediana para 1. A média se moverá em cerca de 0,286 em cada caso. Portanto, a média aqui é mais resistente que a mediana. O exemplo pode ser descartado como incomum, mas não é escandaloso. O ponto não é original, naturalmente. Um lugar que é feito é em Mosteller, F. e Tukey, JW 1977. Análise e Regressão de Dados.Reading, MA: Addison-Wesley, pp.34-35.
Segundo, os meios aparados foram mencionados e a ideia merece um impulso maior. Média e mediana não precisam ser alternativas definitivas, de modo que o analista deve escolher (votar em) um ou outro. Você pode considerar todas as médias aparadas possíveis com base no corte de um determinado número de valores em cada cauda . A tabela mostra como # o número de valores incluídos no cálculo da média:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
A imagem principal aqui é que você pode escolher sua taxa de desconto (ignorar tantos valores em cada cauda como suspeita) como um tipo de seguro contra o risco de ficar de folga por causa de valores extremos. O que vejo é um gradiente bastante suave entre média e mediana, o que é esperado aqui, porque os possíveis valores 1, 2, 3, 4, 5 estão todos presentes nos dados. É esperado um grande salto na sequência com um outlier isolado.
Não há obrigação com os meios aparados de aparar números iguais em cada cauda, mas não vou expandir isso.
Terceiro, o exemplo é de análises da Amazon. O contexto é sempre pertinente para orientar como você deseja resumir os dados . No caso das críticas da Amazon, a melhor resposta é ler as críticas! Como notas altas e baixas podem ser falsas (implicitamente: o autor deste livro é meu amigo) e / ou irrelevantes para sua decisão (explicitamente: o revendedor me tratou mal), não há para mim um óbvio implicação de como resumir esses dados e realmente mostrando a distribuição que a Amazon está sendo maximamente informativa.
Quarto, e mais elementar, mas também fundamental de todos, quem está fazendo você escolher? Às vezes, média e mediana devem ser relatadas (e, como dito, também um gráfico de distribuição).