Se sim, o que? Se não, por que não?
Para uma amostra na linha, a mediana minimiza o desvio absoluto total. Parece natural estender a definição para R2, etc., mas nunca a vi. Mas então, eu estive no campo esquerdo por um longo tempo.
Se sim, o que? Se não, por que não?
Para uma amostra na linha, a mediana minimiza o desvio absoluto total. Parece natural estender a definição para R2, etc., mas nunca a vi. Mas então, eu estive no campo esquerdo por um longo tempo.
Respostas:
Não tenho certeza de que exista uma definição aceita para uma mediana multivariada. O que eu estou familiarizado é o ponto médio de Oja , que minimiza a soma dos volumes de simplicidades formados sobre subconjuntos de pontos. (Veja o link para uma definição técnica.)
Atualização: O site referenciado para a definição de Oja acima também possui um bom artigo que abrange várias definições de uma mediana multivariada:
Como o @Ars disse, não há definição aceita (e esse é um bom ponto). Existem alternativas famílias gerais de maneiras de generalizar quantiles em , acho que o mais importante são:
Generalize o processo quantil Seja a medida empírica (= a proporção de observações em ). Então, com um subconjunto bem escolhido dos conjuntos de Borel em e uma medida real valorizado, você pode definir a função quantil empírico:
Suponha que você pode encontrar um que lhe dá a mínima. Em seguida, o conjunto (ou um elemento do conjunto) A 1 / 2 - ε ∩ A 1 / 2 + ε dá-lhe a mediana quando ε é feito pequeno o suficiente. A definição da mediana é recuperada ao usar A = ( ] - ∞ , x ] x ∈ R ) e λ ( ] - ∞ , x ] ) = x . ArsA resposta se enquadra nessa estrutura, eu acho ... a localização no meio espaço de tukey pode ser obtida usando e λ ( H x ) = x (com x ∈ R , um ∈ R d ).
definição variacional e estimação M A idéia aqui é que o quantil Q α de uma variável aleatória Y em R possa ser definido através de uma igualdade variacional.
A definição mais comum é usar a função de regressão quantílica (também conhecida como perda de pinball, adivinhe por quê?) Q α = a r g inf x ∈ R E [ ρ α ( Y - x ) ] . O caso α = 1 / 2 dá ρ 1 / 2 ( y ) = | y | e você pode generalizar isso para uma dimensão superior usando l 1distâncias conforme feito no @Srikant Answer . Essa é a mediana teórica, mas fornece a mediana empírica se você substituir a expectativa pela expectativa empírica (média).
Mas Kolshinskii propõe o uso da transformação Legendre-Fenchel: desde que onde f ( s ) = 1paras∈R. Ele dá muitas razões profundas para isso (veja o artigo;)). Generalizando este para dimensões maiores requerem trabalhar com um vectorialαe substituindosαpor⟨s,α⟩mas você pode tomarα=(1/2,...,1/2).
Obviamente, existem pontes entre as diferentes formulações. Eles não são todos óbvios ...
Existem maneiras distintas de generalizar o conceito de mediana para dimensões superiores. Uma ainda não mencionada, mas que foi proposta há muito tempo, é construir um casco convexo, removê-lo e repetir o máximo de tempo possível: o que resta no último casco é um conjunto de pontos que são todos candidatos a serem " medianas ".
"Bater a cabeça" é outra tentativa mais recente (c. 1980) de construir um centro robusto para uma nuvem de pontos 2D. (O link está para a documentação e o software disponíveis no Instituto Nacional do Câncer dos EUA.)
A principal razão pela qual existem várias generalizações distintas e nenhuma solução óbvia é que R1 pode ser ordenado, mas R2, R3, ... não.
A mediana geométrica é o ponto com a menor distância euclidiana média das amostras
A mediana de meio espaço do Tukey pode ser estendida para> 2 dimensões usando o DEEPLOC, um algoritmo devido a Struyf e Rousseeuw; veja aqui para detalhes.
O algoritmo é usado para aproximar o ponto de maior profundidade com eficiência; Os métodos ingênuos que tentam determinar isso exatamente entram em conflito com (a versão computacional) da "maldição da dimensionalidade", onde o tempo de execução necessário para calcular uma estatística cresce exponencialmente com o número de dimensões do espaço.
Uma definição que se aproxima disso, para distribuições unimodais, é a mediana do meio-espaço tukey
Eu não sei se existe qualquer definição, mas vou tentar e estender a definição padrão da mediana para . Vou usar a seguinte notação:
, Y : as variáveis aleatórias associadas às duas dimensões.
, m y : as medianas correspondentes.
: o pdf conjunto para nossas variáveis aleatórias
Para alargar a definição da mediana para , nós escolhemos m x e m y para minimizar o seguinte:
O problema agora é que precisamos de uma definição para o que queremos dizer com:
A descrição acima é, em certo sentido, uma métrica de distância e várias possíveis definições de candidatos são possíveis.