No meu trabalho, quando os indivíduos se referem ao valor "médio" de um conjunto de dados, eles geralmente se referem à média aritmética (ou seja, "média" ou "valor esperado"). Se eu fornecesse a média geométrica , as pessoas provavelmente pensariam que eu estava sendo malicioso ou inútil, pois a definição de "média" é conhecida antecipadamente.
Estou tentando determinar se há várias definições da "mediana" de um conjunto de dados. Por exemplo, uma das definições fornecidas por um colega para encontrar a mediana de um conjunto de dados com um número par de elementos seria:
Algoritmo 'A'
- Divida o número de elementos por dois, arredonde para baixo.
- Esse valor é o índice da mediana.
- ie, para o conjunto seguinte, a mediana seria
5
. [4, 5, 6, 7]
Isso parece fazer sentido, embora o aspecto de arredondamento pareça um pouco arbitrário.
Algoritmo 'B'
De qualquer forma, outro colega propôs um algoritmo separado, que estava em um livro de estatísticas dele (necessidade de obter o nome e o autor):
- Divida o número de elementos por 2 e mantenha uma cópia dos números inteiros arredondados e arredondados. Nomeie-os
n_lo
en_hi
. - Tome a média aritmética dos elementos em
n_lo
en_hi
. - ie, para o conjunto seguinte, a mediana seria
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Isso parece errado, pois o valor mediano, 5.5
nesse caso, não está realmente no conjunto de dados original. Quando trocamos o algoritmo 'A' por 'B' em algum código de teste, ele quebrou horrivelmente (como esperávamos).
Questão
Existe um "nome" formal para essas duas abordagens para calcular a mediana de um conjunto de dados? ou seja, "mediana menor das duas" versus "mediana dos elementos do meio e criar novos dados"?