Benefícios do uso da média para resumir a tendência central de uma classificação de 5 pontos
Como o @gung mencionou, acho que muitas vezes existem boas razões para considerar a média de um item de cinco pontos como um índice de tendência central. Eu já descrevi esses motivos aqui .
Parafrasear:
- a média é fácil de calcular
- A média é intuitiva e bem compreendida
- A média é um número único
- Outros índices geralmente geram classificação de objetos semelhante
Por que a média é boa para a Amazon
Pense nos objetivos da Amazon em relatar a média. Eles podem ter como objetivo
- fornecer uma classificação intuitiva e compreensível para um item
- garantir a aceitação pelo usuário do sistema de classificação
- garantir que as pessoas entendam o que a classificação significa para que possam usá-la adequadamente para informar as decisões de compra
A Amazon fornece algum tipo de média arredondada, a contagem de frequências para cada opção de classificação e o tamanho da amostra (ou seja, número de classificações). Presumivelmente, essas informações são suficientes para que a maioria das pessoas aprecie o sentimento geral sobre o item e a confiança nessa classificação (ou seja, é mais provável que um 4.5 com 20 classificações seja preciso do que um 4.5 com 2 classificações; um item com 10 5 classificações de uma estrela e uma classificação de uma estrela sem comentários ainda podem ser um bom item).
Você pode até ver o meio como uma opção democrática. Muitas eleições são decididas com base em qual candidato obtém a maior média em uma escala de dois pontos. Da mesma forma, se você argumentar que cada pessoa que envia uma revisão obtém uma votação, pode ver a média como um formulário que avalia o voto de cada pessoa igualmente.
As diferenças no uso da escala são realmente um problema?
Há uma grande variedade de vieses de classificação conhecidos na literatura psicológica (para uma revisão, ver Saal et al 1980), como viés de tendência central, viés de leniência, viés de rigidez. Além disso, alguns avaliadores serão mais arbitrários e outros serão mais confiáveis. Alguns podem até mentir sistematicamente, dando avaliações positivas ou negativas falsas. Isso criará várias formas de erro ao tentar calcular a classificação média verdadeira para um item.
No entanto, se você coletar uma amostra aleatória da população, esses vieses serão cancelados e, com uma amostra suficiente de avaliadores, você ainda obterá a verdadeira média.
Obviamente, você não obtém uma amostra aleatória na Amazon e existe o risco de que o conjunto específico de avaliadores que você obtém para um item seja sistematicamente tendencioso para ser mais branda ou rigoroso e assim por diante. Dito isso, acho que os usuários da Amazon apreciariam que as classificações enviadas pelos usuários venham de uma amostra imperfeita. Também acho que é bem provável que, com um tamanho de amostra razoável, em muitos casos, a maioria das diferenças de viés de resposta comecem a desaparecer.
Possíveis avanços além da média
Em termos de melhorar a precisão da classificação, eu não questionaria o conceito geral de média, mas acho que existem outras maneiras de estimar a classificação média da população real para um item (ou seja, a classificação média que seria obtida uma amostra representativa grande solicitada a classificar o item).
- Avaliadores de peso com base em sua confiabilidade
- Use um sistema de classificação bayesiano que estima a classificação média como uma soma ponderada da classificação média para todos os itens e a média do item específico e aumente a ponderação para o item específico à medida que o número de classificações aumenta
- Ajuste as informações de um avaliador com base em qualquer tendência geral de classificação entre itens (por exemplo, um 5 de alguém que normalmente dá 3s valeria mais do que alguém que normalmente dá 4s).
Portanto, se a precisão na classificação era o objetivo principal da Amazon, acho que deveria tentar aumentar o número de classificações por item e adotar algumas das estratégias acima. Tais abordagens podem ser particularmente relevantes ao criar as melhores classificações. No entanto, para a humilde classificação na página, pode ser que a média da amostra atenda melhor aos objetivos de simplicidade e transparência.
Referências
- Saal, FE, Downey, RG e Lahey, MA (1980). Classificando as classificações: Avaliando a qualidade psicométrica dos dados de classificação. Psychological Bulletin, 88, 413.