Propriedades de média e mediana

18

Alguém pode me explicar a lógica matemática que ligaria duas afirmações (a) e (b)? Vamos ter um conjunto de valores (alguma distribuição). Agora,

a) A mediana não depende de todo valor [depende apenas de um ou dois valores médios]; b) Mediana é o lugar geométrico da soma mínima dos desvios absolutos.

E da mesma forma, e em contraste,

a) média (aritmética) depende de cada valor; b) Média é o lugar geométrico dos desvios mínimos da soma dos quadrados ao quadrado.

Até agora, minha compreensão é intuitiva.

— ttnphns
fonte

1

Vale a pena revisar uma versão mais antiga da mesma pergunta: stats.stackexchange.com/questions/2547/… E uma descrição das Estatísticas Robustas: en.wikipedia.org/wiki/Robust_statistics

— bill_080

Então, o que você procura para o primeiro par é uma prova de que a mediana, como geralmente definida como o valor do posto intermediário (para um número ímpar de valores, para começar pelo caso mais simples) também é o valor que minimiza a soma de desvios absolutos? De preferência uma prova que também fornece uma visão intuitiva? Eu mesmo não conheço nenhuma prova, então parece uma boa pergunta e gostaria de saber a resposta também.

— onestop

Você me sente corretamente. (a) e (b) atualmente são aspectos / propriedades separados em minha mente, para ambas as estatísticas; mas a intuição sugere que os dois aspectos estão vinculados. Eu quero saber - como eles estão ligados, entender tudo isso profundamente.

— ttnphns

19

São duas perguntas: uma sobre como a média e a mediana minimizam as funções de perda e outra sobre as sensibilidades dessas estimativas aos dados. As duas perguntas estão conectadas, como veremos.

Minimizando a perda

Um resumo (ou estimador) do centro de um lote de números pode ser criado deixando o valor do resumo mudar e imaginando que cada número no lote exerça uma força restauradora sobre esse valor. Quando a força nunca afasta o valor de um número, então, sem dúvida, qualquer ponto no qual o equilíbrio de forças é um "centro" do lote.

Perda quadrática ( ) $L_2$

Por exemplo, se anexássemos uma mola clássica (seguindo a Lei de Hooke ) entre o resumo e cada número, a força seria proporcional à distância de cada mola. As fontes puxariam o resumo dessa maneira e daquela, eventualmente se estabelecendo em um local único e estável de energia mínima.

Gostaria de chamar a atenção para um pequeno truque que acabou de ocorrer: a energia é proporcional à soma das distâncias ao quadrado . A mecânica newtoniana nos ensina que a força é a taxa de mudança de energia. Atingir um equilíbrio - minimizando a energia - resulta no equilíbrio das forças. A taxa líquida de variação da energia é zero.

Vamos esta chamada o " resumo," ou "quadrado resumo perda." $L_2$

Perda absoluta ( ) $L_1$

Outro resumo pode ser criado supondo que os tamanhos das forças de restauração sejam constantes , independentemente das distâncias entre o valor e os dados. As forças em si não são constantes, no entanto, porque sempre devem puxar o valor para cada ponto de dados. Assim, quando o valor é menor que o ponto de dados, a força é direcionada positivamente, mas quando o valor é maior que o ponto de dados, a força é direcionada negativamente. Agora a energia é proporcional às distâncias entre o valor e os dados. Normalmente haverá uma região inteira em que a energia é constante e a força líquida é zero. Qualquer valor nessa região pode ser chamado de " resumo " ou "resumo de perda absoluta". $L_1$

Essas analogias físicas fornecem intuição útil sobre os dois resumos. Por exemplo, o que acontece com o resumo se movermos um dos pontos de dados? No caso com molas conectadas, mover um ponto de dados se estende ou relaxa sua mola. O resultado é uma mudança em vigor no resumo, portanto , ela deve mudar em resposta. Mas no caso , na maioria das vezes, uma alteração em um ponto de dados não faz nada no resumo, porque a força é localmente constante. A única maneira de mudar a força é o ponto de dados se mover pelo resumo. $L_2$ $L_1$

(De fato, deve ser evidente que a força líquida sobre um valor é dada pelo número de pontos maior que ele - que o puxa para cima - menos o número de pontos menor que ele - que o puxa para baixo. o resumo deve ocorrer em qualquer local em que o número de valores de dados exceda exatamente igual ao número de valores de dados menor que ele.) $L_1$

Descrevendo Perdas

Como forças e energias se somam, em ambos os casos, podemos decompor a energia líquida em contribuições individuais a partir dos pontos de dados. Ao representar graficamente a energia ou força em função do valor resumido, isso fornece uma imagem detalhada do que está acontecendo. O resumo será um local em que a energia (ou "perda" na linguagem estatística) é menor. Equivalentemente, será um local no qual as forças se equilibram: o centro dos dados ocorre onde a variação líquida da perda é zero.

Esta figura mostra energias e forças para um pequeno conjunto de dados de seis valores (marcado por linhas verticais fracas em cada gráfico). As curvas pretas tracejadas são os totais das curvas coloridas, mostrando as contribuições dos valores individuais. O eixo x indica possíveis valores do resumo.

figura 1

A média aritmética é um ponto em que a perda ao quadrado é minimizada: ela estará localizada no vértice (inferior) da parábola preta no gráfico superior esquerdo. É sempre único. A mediana é um ponto em que a perda absoluta é minimizada. Como observado acima, ele deve ocorrer no meio dos dados. Não é necessariamente único. Ele estará localizado na parte inferior da curva preta quebrada no canto superior direito. (Na verdade, a parte inferior consiste de uma seção plana curta entre e ; qualquer valor nesse intervalo é uma mediana.) $-0.23$ $-0.17$

Analisando a sensibilidade

Anteriormente, descrevi o que pode acontecer com o resumo quando um ponto de dados é variado. É instrutivo traçar como o resumo muda em resposta à alteração de qualquer ponto de dados único. (Esses gráficos são essencialmente as funções de influência empírica . Eles diferem da definição usual, pois mostram os valores reais das estimativas e não o quanto esses valores são alterados.) O valor do resumo é rotulado como "Estimativa" no -axe para lembrar que este resumo está estimando onde está o meio do conjunto de dados. Os novos valores (alterados) de cada ponto de dados são mostrados em seus eixos x.

Figura 2

Esta figura apresenta os resultados da variação de cada um dos valores de dados no lote (o mesmo analisado na primeira figura). Há um gráfico para cada valor de dados, destacado em seu gráfico com uma marca preta longa ao longo do eixo inferior. (Os valores restantes dos dados são mostrados com marcas curtas em cinza.) A curva azul rastreia o resumo de - a média aritmética - e a curva vermelha rastreia o $-1.02, -0.82, -0.23, -0.17, -0.08, 0.77$ $L_2$ $L_1$ resumo - a mediana. (Como muitas vezes a mediana é uma faixa de valores, a convenção de plotar o meio dessa faixa é seguida aqui.)

Aviso prévio:

A sensibilidade da média é ilimitada: essas linhas azuis se estendem infinitamente para cima e para baixo. A sensibilidade da mediana é limitada: existem limites superiores e inferiores para as curvas vermelhas.
Onde a mediana muda, porém, muda muito mais rapidamente do que a média. A inclinação de cada linha azul é (geralmente é para um conjunto de dados com valores), enquanto que os declives das partes inclinadas das linhas vermelhas são todos . $1/6$ $1/n$ $n$ $1/2$
A média é sensível a todos os pontos de dados e essa sensibilidade não tem limites (como indicam as inclinações diferentes de zero de todas as linhas coloridas no gráfico inferior esquerdo da primeira figura). Embora a mediana seja sensível a todos os pontos de dados, a sensibilidade é limitada (é por isso que as curvas coloridas no gráfico inferior direito da primeira figura estão localizadas dentro de um intervalo vertical estreito em torno de zero). Naturalmente, essas são apenas reiterações visuais da lei básica da força (perda): quadrática para a média, linear para a mediana.
O intervalo durante o qual a mediana pode ser alterada pode variar entre os pontos de dados. É sempre limitado por dois dos valores quase médios entre os dados que não estão variando . (Esses limites são marcados por linhas tracejadas verticais fracas.)
Uma vez que a taxa de variação da mediana é sempre , a quantidade pela qual ela pode variar, por conseguinte, é determinado pelo comprimento desta diferença entre valores próximos-médio do conjunto de dados. $1/2$

Embora apenas o primeiro ponto seja comumente observado, todos os quatro pontos são importantes. Em particular,

É definitivamente falso que a "mediana não depende de todos os valores". Esta figura fornece um contra-exemplo.
No entanto, a mediana não depende "materialmente" de todos os valores, no sentido de que, embora a alteração dos valores individuais possa alterar a mediana, a quantidade de alteração é limitada pelas lacunas entre os valores próximos ao meio no conjunto de dados. Em particular, a quantidade de alteração é limitada . Dizemos que a mediana é um resumo "resistente".
Embora a média não seja resistente e mude sempre que qualquer valor de dados for alterado, a taxa de alteração é relativamente pequena. Quanto maior o conjunto de dados, menor a taxa de alteração. De maneira equivalente, para produzir uma alteração material na média de um grande conjunto de dados, pelo menos um valor deve sofrer uma variação relativamente grande. Isso sugere que a não resistência da média é preocupante apenas para (a) conjuntos de dados pequenos ou (b) conjuntos de dados em que um ou mais dados podem ter valores extremamente distantes do meio do lote.

Essas observações - que espero que os números tornem evidentes - revelam uma conexão profunda entre a função de perda e a sensibilidade (ou resistência) do estimador. Para saber mais, comece com um dos artigos da Wikipedia sobre estimadores-M e, em seguida, siga essas idéias o quanto quiser.

Código

Esse Rcódigo produziu as figuras e pode ser facilmente modificado para estudar qualquer outro conjunto de dados da mesma maneira: basta substituir o vetor criado aleatoriamente ypor qualquer vetor de números.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

— whuber
fonte

3

Estou oferecendo uma recompensa, devido ao estilo meticuloso e sem pressa da resposta, além da qualidade.

— ttnphns

Obrigado! Sua apreciação deste post é muito gratificante.

— whuber

11

$x_1,x_2,\ldots,x_n$ $n$ $y$ $f(y)$ $y$ $x_i$ $f(y) = |x_1 - y| + |x_2 - y| + \ldots + |x_n - y|$ $y$ $f(y)$ $l$ $x_i$ $y$ $r = n - l$ $y$ $y$ $y$ $f(y)$

$\Delta y$ $y$ $x_i$ $y$ $|x_i - y|$ $\Delta y$ $y$ $|x_i - y|$ $\Delta y$ $\Delta y$ $y$ $f(y)$ $l\Delta y - r \Delta y = (l-r)\Delta y$ $f(y)$ $x_i$ $y$ $y$ $f(y)$ $l-r = 0$ $x_i$ $y$ $y$ $x_i$

$f(y)$ $f(y) = (x_1 - y)^2 + \ldots + (x_n - y)^2$ $f(y)$ $y$ $x_i$ $y$

$f(y)$

— shabbychef
fonte

1

x_{i}

$x_i$

obrigado pela explicação elegante. No entanto, parece-me assim: "O número y cuja pequena alteração não altera a função Sum | x_i-y | não depende de cada x_i e é chamado de mediana". É uma observação interessante sobre a mediana de dados n pares . Mas eu estava pedindo para provar isso: "O número y que minimiza a função Sum | x_i-y | não depende de cada x_i e é chamado de mediana". E da mesma forma: "Esse número y que minimiza a função Sum (x_i-y) ^ 2 depende igualmente de cada x_i e é chamado de média".

— ttnphns

1

como devo provar que a parte 'é chamada mediana'? Isso é louco.

— 21811 shabbychef

É um tropo de causa. Esta parte não é para provar, eu esperava que você entendesse.

— ttnphns

1

Existe um resultado semelhante para a mediana dos desvios absolutos em vez da soma dos desvios absolutos? Porque o desvio absoluto médio da mediana também é uma medida bastante interessante de dispersão.

— samthebest

3

$x_{(n)}$ $2 * x_{(n)}$
$a \in \mathbb{R}$

$\sum_{i=1}^{n} |x_{i} - median| \leq \sum_{i=1}^{n} |x_{i} - a|$

e

$\sum_{i=1}^{n} (x_{i} - mean)^{2} \leq \sum_{i=1}^{n} (x_{i} - a)^{2}$

— ocram
fonte

Bem, como estatístico experiente, sem educação básica em matemática, ainda sei muito sobre as diferenças e aplicações de média e mediana. O que preciso aqui é de alguém para desenhar - lógica ou matematicamente - (a) de (b) ou (b) de (a), para mim. Sinto que não posso me harmonizar (a) com (b) racionalmente. Marco, acho muito difícil entender sua anotação. Se suas fórmulas são a dedução de que preciso, você poderia "refletir sobre" a ideia menos tecnicamente para mim?

— ttnphns

PS Contanto que suas duas desigualdades finalmente sejam exibidas corretamente na minha tela, vejo que são apenas minhas declarações (b). Você escreve: "pode ser mostrado que ...". Então me mostre isso. Preciso de um tipo de prova matemática colocada em termos inteligíveis para o analista de dados que não é um matemático profissional.

— ttnphns

2

@ttnphns: sua solicitação de resposta matemática, e não intuitiva, parece incompatível com sua solicitação de algo menos técnico do que o que as pessoas ofereceram.

— Rolando2

Podemos simplificar a situação para 2 ou três pontos e perguntar se a mediana na desigualdade não estrita de soma dupla acima tem um valor único? Com dois pontos, parece estar satisfeito com qualquer ponto entre os 2.

— DWin

2

Ei, aqui está uma contribuição, depois de ler um pouco sobre isso. Provavelmente um pouco tarde para a pessoa que pediu, mas talvez valha a pena para outra pessoa.

Para o caso médio:

Considere o problema $argmin_x \sum_{i=1}^n (y_i - x)$

Introduzir $f(x) = \sum_{i=1}^n(y_i - x)^2$

$f'(x)=0 \Leftrightarrow 2 \sum_{i=1}^n (y_i - x ) = 0$

$f'(x)=0\Leftrightarrow \sum_{i=1}^n y_i = \sum_{i=1}^n x$

$f'(x)=0\Leftrightarrow x = \frac{\sum_{i=1}^n}{n}$

As the function is convex, this is a minimum

For the median case

Consider the problem $argmin_x \sum_{i=1}^n |y_i - x|$

Introduce $f(x) = \sum_{i=1}^n|y_i - x|$

$f'(x)=0 \Leftrightarrow \sum_{i=1}^n sgn(y_i - x ) = 0$

(where $sgn(x)$ is the sign of x : $sgn(x)=1$ if $x >0$ and $sgn(x)=-1$ if $x<0$ )

$f'(x)=0\Leftrightarrow \# \{y_i / y_i >x \} - \# \{y_i / y_i <x \} = 0$

(where $\#{}$ is the cardinal of the space, so in this discrete case, the number of elements in it)

$f'(x)=0\Leftrightarrow x$ is the median if n is odd (you have to refine a bit if it is even, but the principle is the same).

As the function is convex too, this is a minimum again.

— Anthony Martin
fonte

Obrigado. Pode ser útil para mim e para os outros. Você pode adicionar alguns comentários em palavras para as principais expressões - para alguém que não é muito fluente no entendimento de fórmulas. Em particular, o seu último por uma linha - o que significa e o que é #?

— ttnphns

Está claro agora? Eu defini as duas funções menos usuais

— Anthony Martin

Propriedades de média e mediana

Minimizando a perda

Perda quadrática ( )L2L2L_2

Perda absoluta ( )L1L1L_1

Descrevendo Perdas

Analisando a sensibilidade

Código

Perda quadrática ( ) $L_2$

Perda absoluta ( ) $L_1$