São duas perguntas: uma sobre como a média e a mediana minimizam as funções de perda e outra sobre as sensibilidades dessas estimativas aos dados. As duas perguntas estão conectadas, como veremos.
Minimizando a perda
Um resumo (ou estimador) do centro de um lote de números pode ser criado deixando o valor do resumo mudar e imaginando que cada número no lote exerça uma força restauradora sobre esse valor. Quando a força nunca afasta o valor de um número, então, sem dúvida, qualquer ponto no qual o equilíbrio de forças é um "centro" do lote.
Perda quadrática ( )L2
Por exemplo, se anexássemos uma mola clássica (seguindo a Lei de Hooke ) entre o resumo e cada número, a força seria proporcional à distância de cada mola. As fontes puxariam o resumo dessa maneira e daquela, eventualmente se estabelecendo em um local único e estável de energia mínima.
Gostaria de chamar a atenção para um pequeno truque que acabou de ocorrer: a energia é proporcional à soma das distâncias ao quadrado . A mecânica newtoniana nos ensina que a força é a taxa de mudança de energia. Atingir um equilíbrio - minimizando a energia - resulta no equilíbrio das forças. A taxa líquida de variação da energia é zero.
Vamos esta chamada o " resumo," ou "quadrado resumo perda."L2
Perda absoluta ( )L1
Outro resumo pode ser criado supondo que os tamanhos das forças de restauração sejam constantes , independentemente das distâncias entre o valor e os dados. As forças em si não são constantes, no entanto, porque sempre devem puxar o valor para cada ponto de dados. Assim, quando o valor é menor que o ponto de dados, a força é direcionada positivamente, mas quando o valor é maior que o ponto de dados, a força é direcionada negativamente. Agora a energia é proporcional às distâncias entre o valor e os dados. Normalmente haverá uma região inteira em que a energia é constante e a força líquida é zero. Qualquer valor nessa região pode ser chamado de " resumo " ou "resumo de perda absoluta".L1
Essas analogias físicas fornecem intuição útil sobre os dois resumos. Por exemplo, o que acontece com o resumo se movermos um dos pontos de dados? No caso com molas conectadas, mover um ponto de dados se estende ou relaxa sua mola. O resultado é uma mudança em vigor no resumo, portanto , ela deve mudar em resposta. Mas no caso L 1 , na maioria das vezes, uma alteração em um ponto de dados não faz nada no resumo, porque a força é localmente constante. A única maneira de mudar a força é o ponto de dados se mover pelo resumo.L2L1
(De fato, deve ser evidente que a força líquida sobre um valor é dada pelo número de pontos maior que ele - que o puxa para cima - menos o número de pontos menor que ele - que o puxa para baixo. o resumo deve ocorrer em qualquer local em que o número de valores de dados exceda exatamente igual ao número de valores de dados menor que ele.)L1
Descrevendo Perdas
Como forças e energias se somam, em ambos os casos, podemos decompor a energia líquida em contribuições individuais a partir dos pontos de dados. Ao representar graficamente a energia ou força em função do valor resumido, isso fornece uma imagem detalhada do que está acontecendo. O resumo será um local em que a energia (ou "perda" na linguagem estatística) é menor. Equivalentemente, será um local no qual as forças se equilibram: o centro dos dados ocorre onde a variação líquida da perda é zero.
Esta figura mostra energias e forças para um pequeno conjunto de dados de seis valores (marcado por linhas verticais fracas em cada gráfico). As curvas pretas tracejadas são os totais das curvas coloridas, mostrando as contribuições dos valores individuais. O eixo x indica possíveis valores do resumo.
A média aritmética é um ponto em que a perda ao quadrado é minimizada: ela estará localizada no vértice (inferior) da parábola preta no gráfico superior esquerdo. É sempre único. A mediana é um ponto em que a perda absoluta é minimizada. Como observado acima, ele deve ocorrer no meio dos dados. Não é necessariamente único. Ele estará localizado na parte inferior da curva preta quebrada no canto superior direito. (Na verdade, a parte inferior consiste de uma seção plana curta entre e - 0,17 ; qualquer valor nesse intervalo é uma mediana.)−0.23−0.17
Analisando a sensibilidade
Anteriormente, descrevi o que pode acontecer com o resumo quando um ponto de dados é variado. É instrutivo traçar como o resumo muda em resposta à alteração de qualquer ponto de dados único. (Esses gráficos são essencialmente as funções de influência empírica . Eles diferem da definição usual, pois mostram os valores reais das estimativas e não o quanto esses valores são alterados.) O valor do resumo é rotulado como "Estimativa" no -axe para lembrar que este resumo está estimando onde está o meio do conjunto de dados. Os novos valores (alterados) de cada ponto de dados são mostrados em seus eixos x.
Esta figura apresenta os resultados da variação de cada um dos valores de dados no lote (o mesmo analisado na primeira figura). Há um gráfico para cada valor de dados, destacado em seu gráfico com uma marca preta longa ao longo do eixo inferior. (Os valores restantes dos dados são mostrados com marcas curtas em cinza.) A curva azul rastreia o resumo de L 2 - a média aritmética - e a curva vermelha rastreia o L 1−1.02,−0.82,−0.23,−0.17,−0.08,0.77L2L1resumo - a mediana. (Como muitas vezes a mediana é uma faixa de valores, a convenção de plotar o meio dessa faixa é seguida aqui.)
Aviso prévio:
A sensibilidade da média é ilimitada: essas linhas azuis se estendem infinitamente para cima e para baixo. A sensibilidade da mediana é limitada: existem limites superiores e inferiores para as curvas vermelhas.
Onde a mediana muda, porém, muda muito mais rapidamente do que a média. A inclinação de cada linha azul é (geralmente é um / n para um conjunto de dados com n valores), enquanto que os declives das partes inclinadas das linhas vermelhas são todos 1 / 2 .1/61/nn1/2
A média é sensível a todos os pontos de dados e essa sensibilidade não tem limites (como indicam as inclinações diferentes de zero de todas as linhas coloridas no gráfico inferior esquerdo da primeira figura). Embora a mediana seja sensível a todos os pontos de dados, a sensibilidade é limitada (é por isso que as curvas coloridas no gráfico inferior direito da primeira figura estão localizadas dentro de um intervalo vertical estreito em torno de zero). Naturalmente, essas são apenas reiterações visuais da lei básica da força (perda): quadrática para a média, linear para a mediana.
O intervalo durante o qual a mediana pode ser alterada pode variar entre os pontos de dados. É sempre limitado por dois dos valores quase médios entre os dados que não estão variando . (Esses limites são marcados por linhas tracejadas verticais fracas.)
Uma vez que a taxa de variação da mediana é sempre , a quantidade pela qual ela pode variar, por conseguinte, é determinado pelo comprimento desta diferença entre valores próximos-médio do conjunto de dados.1/2
Embora apenas o primeiro ponto seja comumente observado, todos os quatro pontos são importantes. Em particular,
É definitivamente falso que a "mediana não depende de todos os valores". Esta figura fornece um contra-exemplo.
No entanto, a mediana não depende "materialmente" de todos os valores, no sentido de que, embora a alteração dos valores individuais possa alterar a mediana, a quantidade de alteração é limitada pelas lacunas entre os valores próximos ao meio no conjunto de dados. Em particular, a quantidade de alteração é limitada . Dizemos que a mediana é um resumo "resistente".
Embora a média não seja resistente e mude sempre que qualquer valor de dados for alterado, a taxa de alteração é relativamente pequena. Quanto maior o conjunto de dados, menor a taxa de alteração. De maneira equivalente, para produzir uma alteração material na média de um grande conjunto de dados, pelo menos um valor deve sofrer uma variação relativamente grande. Isso sugere que a não resistência da média é preocupante apenas para (a) conjuntos de dados pequenos ou (b) conjuntos de dados em que um ou mais dados podem ter valores extremamente distantes do meio do lote.
Essas observações - que espero que os números tornem evidentes - revelam uma conexão profunda entre a função de perda e a sensibilidade (ou resistência) do estimador. Para saber mais, comece com um dos artigos da Wikipedia sobre estimadores-M e, em seguida, siga essas idéias o quanto quiser.
Código
Esse R
código produziu as figuras e pode ser facilmente modificado para estudar qualquer outro conjunto de dados da mesma maneira: basta substituir o vetor criado aleatoriamente y
por qualquer vetor de números.
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}