Densidade da distribuição normal à medida que as dimensões aumentam


15

A pergunta que quero fazer é a seguinte: como a proporção de amostras dentro de 1 DP da média de uma distribuição normal varia à medida que o número de variáveis ​​aumenta?

(Quase) todo mundo sabe que em uma distribuição normal unidimensional, 68% das amostras podem ser encontradas com um desvio padrão da média. E em 2, 3, 4, ... dimensões? Eu sei que fica menos ... mas por quanto (precisamente)? Seria útil ter uma tabela mostrando as figuras para 1, 2, 3 ... 10 dimensões, bem como 1, 2, 3 ... 10 SDs. Alguém pode apontar para essa mesa?

Um pouco mais de contexto - eu tenho um sensor que fornece dados em até 128 canais. Cada canal está sujeito a ruído elétrico (independente). Quando sinto um objeto de calibração, posso calcular a média de um número suficiente de medições e obter um valor médio entre os 128 canais, juntamente com 128 desvios padrão individuais.

MAS ... quando se trata de leituras instantâneas individuais, os dados não respondem tanto como 128 leituras individuais quanto uma única leitura de uma quantidade de vetor (até) 128-dimensonal. Certamente, esta é a melhor maneira de tratar as poucas leituras críticas que fazemos (tipicamente 4-6 das 128).

Quero ter uma idéia do que é variação "normal" e do que é "discrepante" nesse espaço vetorial. Tenho certeza de que vi uma tabela como a que descrevi que se aplicaria a esse tipo de situação - alguém pode apontar para uma?


Por favor - posso ter apenas respostas empíricas - não entendo a maioria das notações matemáticas.
omatai

Respostas:


19

Vamos tomar : cada X i é N normal ( 0 , 1 ) e o X i são independentes - acho que é isso que você quer dizer com dimensões mais altas.X=(X1,,Xd)N(0,I)XiN(0,1)Xi

Você diria que está dentro de 1 sd da média quando | | X | | < 1 (a distância entre X e seu valor médio é menor que 1). Agora | | X | | 2 = X 2 1 + + X 2 d ~ χ 2 ( d ) de modo que este acontece com probabilidade P ( ξ < 1 ) onde ξ ~ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). Você pode encontrar isso em boas mesas quadradas de chi ...

Aqui estão alguns valores:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

E para 2 sd:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

Você pode obter esses valores em R com commads como pchisq(1,df=1:10), pchisq(4,df=1:10), etc.

Post Scriptum Como o cardeal apontou nos comentários, pode-se estimar o comportamento assintótico dessas probabilidades. O CDF de uma variável é F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d) ondeγ(s,y)=y0ts-1e-tdté afunçãoyincompleta, e clássicoΓ(s)=0ts-1e-tdt.

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

Quando é um número inteiro, a integração repetida por partes mostra que P ( s , y ) = e - y k = s y ks que é a cauda do CDF da distribuição de Poisson.

P(s,y)=eyk=sykk!,

Agora, esta soma é dominada pelo seu primeiro mandato (muitas graças ao cardeal): P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
dd

Bem-vindo ao nosso site, Elvis! Boa resposta. (+1)
whuber

11
ξd

Obrigado por seus comentários. Não achei que essa resposta fosse receber muita atenção! É verdade que esta é uma boa forma da maldição da dimensionalidade ... @ cardinal relativa a (3) Não conheço nenhum equivalente assintótico da função gama incompleta quando os primeiros parâmetros vão para o infinito, o segundo sendo corrigido. não é fácil! Pode-se fazer uma majoração grosseira, devo escrever mais tarde.
Elvis

2
d seja uniforme e tal que d=2k. Observe queZEu=X2Eu-1 12+X2Eu2 é um Exp(1/2) random variable. So X2=i=1kZi. But, then X2 is just the time until the kth renewal of a Poisson process with rate 1/2. So P(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!. The tail of the Poisson is dominated by the leading term, so P(X2<1)e1/22k/Γ(k+1) as d (Again: k=d/2).
cardinal

1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.