Hipervolume do contorno

Estou procurando o valor assintótico ( $n\rightarrow \infty$ ) de (o logaritmo do determinante) da covariância da $\alpha$ % de observações com a menor distância euclidiana da origem em uma amostra de tamanho $n$ extraída de, digamos, uma bivariada gaussiano padrão.

- O hiper-volume de uma elipse é proporcional ao determinante de sua matriz de covariância, daí o título.

--Por padrão gaussiano bivariado, quero dizer $\mathcal{N}_2(0_2,\pmb I_2)$ onde $0_2$ é um vetor de 0 de comprimento 2 e $\pmb I_2$ é a matriz de identidade rank 2 .---

É fácil ver por simulações do que quando $\alpha=52/70$ o número é de cerca de $\approx -1.28$ :

library(MASS)
n<-10000
p<-2
x<-mvrnorm(n,rep(0,p),diag(2))
h<-ceiling(0.714286*n)
p<-ncol(x)
w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix
s<-(1:n)[order(w)][1:h]
log(det(cov(x[s,])))

mas não me lembro de como obter uma expressão exata (ou, na sua falta, uma melhor aproximação) para isso.

r mathematical-statistics simulation

— user603
fonte

No seu texto, você não diz nada sobre os parâmetros da distribuição bivariada. Além disso, parece que seu código é sobre Mahalanobis d, não euclidiano d.

— ttnphns

Por gaussiano padrão, quero dizer aquele centrado na origem e com covariância de identidade (vou editar isso em). Distância de Mahalanobis em relação à matriz de covariância de identidade == Distâncias eucledianas.

— user603

Se você estiver usando código ou buscando ajuda com código, indique qual idioma ou programa você está usando.

— wolfies

Ok, essa pergunta parece surgir de tempos em tempos, então eu acho que vou dar uma resposta geral.

Em [1], os autores mostram que se com simétrica definida, e positivo $\pmb x_i\sim \mathcal{N}_p(\pmb \mu,\pmb \varSigma),i=1,\ldots,n$ $\varSigma$ $S_{\alpha}$

\begin{matrix} (0) & S_{α} = {Eu : (x x_{Eu} - μ μ)^{'} Σ^{- 1} (x x_{Eu} - μ μ) ⩽ q_{α}} \end{matrix}

$S_{\alpha}=\{i: (\pmb x_i-\pmb\mu)'\varSigma^{-1}(\pmb x_i-\pmb\mu)\leqslant q_{\alpha}\}\label{a}\tag{0}$

para e $q_{\alpha}=\chi^2_{p}(\alpha),\;0<\alpha\leqslant 1$

\begin{matrix} (1) & C_{α} = {cov}_{Eu \in S_{α}} x x_{Eu} \end{matrix}

$C_{\alpha}=\mbox{cov}_{i\in S_{\alpha}}\pmb x_i\label{b}\tag{1}$

Então, assintoticamente, converge para onde $C_{\alpha}$ $l_{\alpha}\varSigma$

\begin{matrix} 2) & {eu}_{α} = \frac{F_{χ_{p + 2}^{2} (q_{α})}}{α} \end{matrix}

$l_{\alpha}=\frac{ F_{\chi^2_{p+2}(q_{\alpha})} }{\alpha}\label{c}\tag{2}$

Essa aproximação é realmente boa (aqui para alpha = 60/70):

library(MASS)
alpha<-60/70
p<-2
n<-1000000

radius<-sqrt(qchisq(alpha,df=p))
x0<-mvrnorm(n,rep(0,p),diag(p),empirical=TRUE)
Id<-which(rowSums(x0*x0)<=radius**2)
cov(x0[Id,])

qalpa<-qchisq(alpha,p)
diag(1/(alpha/(pchisq(qalpa,p+2))),p)

Então, finalmente, para responder à pergunta, o determinante da matriz de covariância das observações com a menor norma euclediana até a origem (este é o caso particular em que $\log$ $[\alpha n]$ e $\varSigma=\pmb I_p$ $\pmb \mu=\pmb 0_p$

\begin{matrix} (3) & p registro F_{χ_{p + 2}^{2} (q_{α})} - p registro α \end{matrix}

$p\log F_{\chi^2_{p+2}(q_{\alpha})}-p\log\alpha\label{d}\tag{3}$

Croux C., Haesbroeck G. (1999). Função de influência e eficiência do estimador de matriz dispersa determinante de covariância mínima. Revista de Análise Multivariada. 71. 161-190.

— user603
fonte