Qual é a distribuição da distância euclidiana entre duas variáveis ​​aleatórias normalmente distribuídas?


41

Assuma que são dadas dois objectos cujas localizações exacta é desconhecida, mas está distribuído de acordo com a distribuição normal com parâmetros conhecidos (por exemplo, e . Podemos assumir que ambos são normais bivariados, de modo que as posições são descritas por uma distribuição sobre coordenadas (ie e são vetores contendo as coordenadas esperadas para e respectivamente). Também assumiremos que os objetos são independentes.aN(m,s)bN(v,t))(x,y)mv(x,y)ab

Alguém sabe se a distribuição da distância euclidiana ao quadrado entre esses dois objetos é uma distribuição paramétrica conhecida? Ou como derivar o PDF / CDF para esta função analiticamente?


4
Você deve obter um múltiplo de uma distribuição qui-quadrado não central, desde que as quatro coordenadas não estejam correlacionadas. Caso contrário, o resultado parecerá muito mais complicado.
whuber

@whuber nenhum detalhe / ponteiros você poderia fornecer a respeito de como os parâmetros da distribuição qui-quadrado não-central, resultando relacionar com aqueles dos objetos a, b seria fantástico
Nick

4
@Clique nos primeiros parágrafos do artigo da Wikipedia para fornecer os detalhes. Observando as funções características, é possível estabelecer que um resultado semelhante não esteja disponível quando nem todas as variações forem iguais ou houver algumas correlações.
whuber

@ Nick, só para esclarecer, tanto e são vetores aleatórios com valores em ? abR2
Mvctas

1
@ Nick, se e são solidariamente normal, então a diferença é é normal também. Então seu problema é encontrar a distribuição do vetor normal aleatório. No Google, encontrei este link . O artigo descreve um problema muito mais complexo que, em casos muito particulares, coincide com o seu. Isso dá alguma esperança de que haja uma resposta definitiva para sua pergunta. As referências podem fornecer idéias adicionais sobre onde pesquisar. abab
precisa saber é o seguinte

Respostas:


24

A resposta a essa pergunta pode ser encontrada no livro Formas quadráticas em variáveis ​​aleatórias de Mathai e Provost (1992, Marcel Dekker, Inc.).

Como os comentários esclarecem, você precisa encontrar a distribuição de que segue uma distribuição normal bivariada com média e matriz de covariância . Essa é uma forma quadrática na variável aleatória bivariada . z = a - b μ Σ zQ=z12+z22z=abμΣz

Resumidamente, um bom resultado geral para o caso dimensional em que e é que a função geradora de momento é onde são os valores próprios de e é uma função linear de . Veja o Teorema 3.2a.2 (página 42) no livro citado acima (assumimos aqui que é não singular). Outra representação útil é 3.1a.1 (página 29) ondez N p ( μ , Σ ) Q = p j = 1 z 2 j E ( e t Q ) = e t p j = 1 b 2 j λ jpzNp(μ,Σ)

Q=j=1pzj2
E(etQ)=etj=1pbj2λj12tλjj=1p(12tλj)1/2
λ1,,λpΣbμΣ
Q=j=1pλj(uj+bj)2
u1,,up são iid .N(0,1)

Todo o capítulo 4 do livro é dedicado à representação e computação de densidades e funções de distribuição, o que não é nada trivial. Estou apenas superficialmente familiarizado com o livro, mas minha impressão é que todas as representações gerais são em termos de expansões em série infinitas.

Portanto, de certa forma, a resposta para a pergunta é: sim, a distribuição da distância euclidiana ao quadrado entre dois vetores normais bivariados pertence a uma classe conhecida (e bem estudada) de distribuições parametrizadas pelos quatro parâmetros e . No entanto, tenho certeza de que você não encontrará essa distribuição em seus livros-texto padrão.λ1,λ2>0b1,b2R

Nota, além disso, que e não precisa ser independente. A normalidade da articulação é suficiente (que é automática se forem independentes e cada normal), então a diferença segue uma distribuição normal.abab


1
Obrigado pela referência, eu encontrei o livro e estou lentamente tentando fazer o meu caminho através dele
Nick

@NRH Eu já trabalhei no MGF no caso simétrico ( ) em que e em vez de no somatório, tenho . A simulação verifica o primeiro momento. É possível que essa seja a "função linear" que você mencionou e que isso seja peculiar ao caso simétrico, mas pensei em indicá-lo caso haja um erro. λj=σ2p=2bj2λjμj2
Kyle

Na verdade, com base na definição de , o numerador no exponencial reduz para no caso simétrico (dimensões independentes com variância comum). bjμj2
Kyle

7

Primeiro defina a distribuição bivariada do vetor de diferença, , que será simplesmente ; isso se segue da propagação de incerteza multivariada , envolvendo uma matriz diagonal de blocos e o jacobiano .μd=μ1μ2Σd=Σ1+Σ2 Σ 12 = [ Σ 1Σd=JΣ12JTJ=[ + I , - I ]Σ12=[Σ1Σ2]J=[+I,I]

Em segundo lugar, procure a distribuição do comprimento do vetor de diferença ou a distância radial da origem, que é distribuída por Hoyt :

O raio em torno da média verdadeira em uma variável aleatória normal correlacionada bivariada com variações desiguais, reescrita em coordenadas polares (raio e ângulo), segue uma distribuição de Hoyt. O pdf e o cdf são definidos de forma fechada, a localização numérica da raiz é usada para encontrar o cdf ^ −1. Reduz para a distribuição Rayleigh se a correlação for 0 e as variações forem iguais.

Uma distribuição mais geral surge se você permitir uma diferença tendenciosa (origem deslocada), da Ballistipedia : Distribuições de coordenadas xy e o erro radial resultante


2
+1, mas acho que vale ressaltar que a pergunta lida com o que sua figura chama de "caso geral".
Ameba diz Reinstate Monica

1

Por que não testá-lo?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Gráfico 1 Gráfico 2 Gráfico 3 Gráfico 4


2
os comentários de whubers à pergunta original já declaravam como seria se as variações fossem as mesmas e as variáveis ​​não fossem correlacionadas. Talvez dar um exemplo de onde esse não seja o caso seria mais esclarecedor.
Andy W

Você pode fornecer um exemplo?
Brandon Bertelsen

tudo o que você precisa fazer é gerar os valores x e y que estejam correlacionados ou que tenham variações diferentes. As diferentes variações podem ser feitas exatamente no código como está. Você pode gerar valores a partir de uma matriz de covariância especificada usando mvrnorm do pacote MASS. Também não tenho certeza de qual é a função "dentista" no código acima, talvez seja "densidade".
Andy W

1
Dito isto, é provavelmente igualmente esclarecedor trabalhar com a matemática para ver por que esse é o caso (e como manipular a variação / covariância alterará a distribuição). Não está totalmente claro para mim por que esse é o caso apenas olhando para a função característica mencionada pela whuber. Parece que um simples entendimento das regras para adicionar, subtrair e multiplicar variáveis ​​aleatórias o levará a entender por que isso acontece.
21711 Andy W
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.