Distância mínima esperada de um ponto com densidade variável

Estou vendo como a distância euclidiana mínima esperada entre pontos aleatoriamente uniformes e a origem muda à medida que aumentamos a densidade de pontos aleatórios ( pontos por unidade quadrada ) ao redor da origem. Eu consegui chegar a um relacionamento entre os dois descritos como tal:

Expected Min Distance = \frac{1}{2 \sqrt{Density}}

$\text{Expected Min Distance} =\frac{1}{2\sqrt{\text{Density}}}$

Eu vim com isso executando algumas simulações de Monte Carlo em R e ajustando uma curva manualmente (código abaixo).

Minha pergunta é : eu poderia ter derivado esse resultado teoricamente, e não através de experimentação?

#Stack Overflow example
library(magrittr)
library(ggplot2)


#---------
#FUNCTIONS
#---------
#gen random points within a given radius and given density
gen_circle_points <- function(radius, density) {
  #round radius up then generate points in square with side length = 2*radius
  c_radius <- ceiling(radius)
  coords <- data.frame(
    x = runif((2 * c_radius) ^ 2 * density, -c_radius, c_radius),
    y = runif((2 * c_radius) ^ 2 * density, -c_radius, c_radius)
  )
  return(coords[sqrt(coords$x ^ 2 + coords$y ^ 2) <= radius, ])#filter in circle
}

#Example plot
plot(gen_circle_points(radius = 1,density = 200)) #200 points around origin
points(0,0, col="red",pch=19) #colour origin

#return euclidean distances of points generated by gen_circle_points()
calculate_distances <- function(circle_points) {
  return(sqrt(circle_points$x ^ 2 + circle_points$y ^ 2))
}

#find the smallest distance from output of calculate_distances()
calculate_min_value <- function(distances) {
  return(min(distances))
}


#Try a range of values
density_values <- c(1:100)

expected_min_from_density <- sapply(density_values, function(density) {
  #simulate each density value 1000 times and take an average as estimate for
  #expected minimum distance
  sapply(1:1000, function(i) {
    gen_circle_points(radius=1, density=density) %>%
      calculate_distances() %>%
      calculate_min_value()
  }) %>% mean()
})

results <- data.frame(density_values, expected_min_from_density)

#fit based off exploration
theoretical_fit <- data.frame(density = density_values, 
                              fit = 1 / (sqrt(density_values) * 2))

#plot monte carlo (black) and fit (red dashed)
ggplot(results, aes(x = density_values, y = expected_min_from_density)) +
  geom_line() + 
  geom_line(
    data = theoretical_fit,
    aes(x = density, y = fit),
    color = "red",
    linetype = 2
  )

— Michael Bird
fonte

A dependência direta (assintótica) da raiz inversa da densidade segue fácil e imediatamente a partir das considerações das unidades de medida; portanto, a única questão diz respeito a por que o múltiplo é

1 / 2.

$1/2.$

— whuber

@whuber Sim, eu notei que as unidades estavam bem alinhadas e sim, a pergunta é: de onde vieram as duas?

— Michael Bird

O é a largura do seu quadrado.

2

$2$

— whuber

Considere a distância até a origem de variáveis aleatórias distribuídas independentemente que possuem distribuições uniformes no quadrado $n$ $(X_i,Y_i)$ $[-1,1]^2.$

Escrevendo para a distância ao quadrado, a geometria euclidiana nos mostra que $R_i^2 = X_i^2+Y_i^2$

Pr (R_{i} \leq r \leq 1) = \frac{1}{4} π r^{2}

$\Pr(R_i \le r \le 1) = \frac{1}{4} \pi\, r^2$

enquanto (com um pouco mais de trabalho)

Pr (1 \leq R_{i} \leq r \leq \sqrt{2}) = \frac{1}{4} (π r^{2} + 4 \sqrt{r^{2} - 1} - 4 r^{2} ArcTan (\sqrt{r^{2} - 1})) .

$\Pr(1 \le R_i \le r \le \sqrt{2}) = \frac{1}{4}\left(\pi\, r^2 + 4\sqrt{r^2-1} - 4 r^2 \operatorname{ArcTan}\left(\sqrt{r^2-1}\right)\right).$

Juntos, estes determinam a função de distribuição comum a todos os $F$ $R_i.$

Como os pontos são independentes, assim como as distâncias onde a função de sobrevivência de é $n$ $R_i,$ $\min(R_i)$

S_{n} (r) = (1 - F (r))^{n},

$S_n(r) = (1 - F(r))^n,$

implicando a menor distância média é

μ (n) = \int_{0}^{\sqrt{2}} S_{n} (r) d r .

$\mu(n) = \int_0^\sqrt{2} S_n(r)\, dr.$

Para quase toda a área nesta integral é próxima de portanto podemos aproximar isso como $n\gg 1,$ $0,$

μ_{approx} (n) = \int_{0}^{1} S_{n} (r) d r = \int_{0}^{1} {(1 - \frac{π}{4} r^{2})}^{n} d r .

$\mu_\text{approx}(n) = \int_0^1S_n(r)\, dr = \int_0^1\left(1 - \frac{\pi}{4}r^2\right)^n\,dr.$

O erro não é maior que a parte da integral omitida, que por sua vez não é maior que

(\sqrt{2} - 1) (1 - F (1))^{n} = (\sqrt{2} - 1) (1 - π / 4)^{n},

$(\sqrt{2}-1)(1-F(1))^n = (\sqrt{2}-1)(1 - \pi/4)^n,$

o que obviamente diminui exponencialmente com $n.$

Por sua vez, podemos aproximar o integrando como

{(1 - \frac{π}{4} r^{2})}^{n} \approx \exp (- \frac{1}{2} \frac{r^{2}}{2 / (n π)}) .

$\left(1 - \frac{\pi}{4}r^2\right)^n \approx \exp\left(-\frac{1}{2} \frac{r^2}{2/(n\pi)}\right).$

Até uma constante de normalização, esta é a função de densidade de uma distribuição Normal com média e variância A constante de normalização ausente é $0$ $\sigma^2=2/(n\pi).$

C (n) = \frac{1}{\sqrt{2 π σ^{2}}} = \frac{1}{\sqrt{2 π 2 / (n π)}} = \frac{\sqrt{n}}{2} .

$C(n) = \frac{1}{\sqrt{2\pi \sigma^2}} = \frac{1}{\sqrt{2\pi\ 2 / (n\pi)}} = \frac{\sqrt{n}}{2}.$

Portanto, estendendo a integral de para (que adiciona um erro proporcional a ), $1$ $\infty$ $e^{-n}$

μ_{approx} (n) \approx \int_{0}^{\infty} e^{- t^{2} / (2 σ^{2})} d t = \frac{1}{C (n)} \frac{1}{2} = \frac{1}{\sqrt{n}} .

$\mu_\text{approx}(n) \approx \int_0^\infty e^{-t^2/(2\sigma^2)}\,dt = \frac{1}{C(n)} \frac{1}{2} = \frac{1}{\sqrt{n}}.$

No processo de obtenção dessa aproximação, três erros foram cometidos. Coletivamente, eles estão no máximo na ordem o erro incorrido ao se aproximar de pelo gaussiano. $n^{-1},$ $S_n(r)$

Esta figura plota vezes a diferença entre e vezes a menor distância média observada em conjuntos de dados simulados separados para cada Como eles diminuem à medida que cresce, isso é evidência de que o erro é $n$ $1$ $\sqrt{n}$ $10^5$ $n.$ $n$ $o(n^{-1}/\sqrt{n}) = o(n^{-3/2}).$

Finalmente, o fator da questão deriva do tamanho do quadrado: $1/2$ a densidade é o número de pontos por unidade de área e o quadrado tem a área , de onde $n,$ $[-1,1]^2$ $4$

2 \sqrt{Density} = 2 \sqrt{n / 4} = \sqrt{n} .

$2\sqrt{\text{Density}} = 2\sqrt{n/4} = \sqrt{n}.$

Este é o Rcódigo para a simulação:

n.sim <- 1e5  # Size of each simulation
d <- 2        # Dimension
n <- 2^(1:11) # Numbers of points in each simulation
#
# Estimate mean distance to the origin for each `n`.
#
y <- sapply(n, function(n.points) {
  x <- array(runif(d*n.points*n.sim, -1, 1), c(d, n.points, n.sim))
  mean(sqrt(apply(colSums(x^2), 2, min)))
})
#
# Plot the errors (normalized) against `n`.
#
library(ggplot2)
ggplot(data.frame(Log2.n = 1:length(n), Error=sqrt(n)* (1 - y * n^(1/d))),
       aes(Log2.n, Error)) + geom_point() + geom_smooth() 
  ylab("Error * n") + ggtitle("Simulation Means")

— whuber
fonte

Uau! Que resposta! Muito obrigado, isso é ótimo. Obrigado!

— Michael Bird

Olá @whuber, eu estava tentando reproduzir seu e notei que sua equação para não retorna como mostra o gráfico. Quando calculei , obtive que fornece a curva que você forneceu. Você cometeu um erro de digitação?

F (r)

$F(r)$

F (\sqrt{2})

$F(\sqrt{2})$

1

$1$

Pr (1 \leq R_{i} \leq r \leq \sqrt{2})

$\text{Pr}(1 \leq R_i \leq r \leq \sqrt{2})$

π / 4 - r (r ArcCos (1 / r) - \sqrt{1 - 1 / r^{2}})

$\pi/4 - r (r \text{ArcCos}(1/r) - \sqrt{1-1/r^2})$

— Michael Bird

@ Michael Obrigado, há um erro de digitação - mas não é o que você sugere: um dos meus " " deveria ter sido " ". Eu consertei esse.

r

$r$

4

$4$

— whuber