Intervalo máximo entre as amostras retiradas sem substituição de uma distribuição uniforme e discreta

Esse problema está relacionado à pesquisa do meu laboratório em cobertura robótica:

Desenhe aleatoriamente $n$ números do conjunto $\{1,2,\ldots,m\}$ sem substituição e classifique os números em ordem crescente. $1\le n\le m$ .

A partir dessa lista ordenada de números $\{a_{(1)},a_{(2)},…,a_{(n)}\}$ , gere a diferença entre números consecutivos e os limites: $g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}$ . Isso fornece $n+1$ lacunas.

Qual é a distribuição da diferença máxima?

$P(\max(g) = k) = P(k;m,n) = ?$

Isso pode ser estruturado usando estatísticas de ordem : $P(g_{(n+1)} = k) = P(k;m,n) = ?$

Veja o link para a distribuição de lacunas , mas esta pergunta solicita a distribuição da lacuna máxima .

Eu ficaria satisfeito com o valor médio, $\mathbb{E}[g_{(n+1)}]$ .

Se $n=m$ todas as lacunas são do tamanho 1. Se $n+1 = m$ há uma lacuna do tamanho $2$ , e $n+1$ locais possíveis. O tamanho máximo do intervalo é $m-n+1$ , e esse intervalo pode ser colocado antes ou depois de qualquer um dos $n$ números, para um total de $n+1$ posições possíveis. O menor tamanho máximo de espaço é $\lceil\frac{m-n}{n+1}\rceil$ . Defina a probabilidade de qualquer combinação dada. $T= {m \choose n}^{-1}$

Resolvi parcialmente a função de massa de probabilidade como $P(g_{(n+1)} = k) = P(k;m,n) = \begin{cases} 0 & k < \lceil\frac{m-n}{n+1}\rceil\\ 1 & k = \frac{m-n}{n+1} \\ 1 & k = 1 \text{ (occurs when $m=n$)} \\ T(n+1)& k = 2 \text{ (occurs when $m=n+1$)} \\ T(n+1)& k = \frac{m-(n-1)}{n} \\ ? & \frac{m-(n-1)}{n} \le k \le m-n+1 \\ T(n+1)& k = m-n+1\\ 0 & k > m-n+1 \end{cases} \tag{1}$

Trabalho atual (1): A equação da primeira lacuna, é direta: O valor esperado possui um valor simples: . Por simetria, espero que todas as lacunas tenham essa distribuição. Talvez a solução possa ser encontrada usando essa distribuição vezes. $a_{(1)}$

P (a_{(1)} = k) = P (k; m, n) = \frac{1}{(\binom{m}{n})} \sum_{k = 1}^{m - n + 1} (\binom{m - k - 1}{n - 1})

$P(a_{(1)} = k) = P(k;m,n) = \frac{1}{{m \choose n}} \sum_{k=1}^{m-n+1} {m-k-1 \choose n-1}$

E [P (a_{(1)})] = \frac{1}{(\binom{m}{n})} \sum_{k = 1}^{m - n + 1} (\binom{m - k - 1}{n - 1}) k = \frac{m - n}{1 + n}

$\mathbb{E}[P(a_{(1)})] = \frac{1}{ {m \choose n}} \sum_{k=1}^{m-n+1} {m-k-1 \choose n-1} k = \frac{m-n}{1+n}$

n

$n$

n

$n$

Trabalho atual (2): é fácil executar simulações de Monte Carlo.

simMaxGap[m_, n_] := Max[Differences[Sort[Join[RandomSample[Range[m], n], {0, m+1}]]]];
m = 1000; n = 1; trials = 100000;
SmoothHistogram[Table[simMaxGap[m, n], {trials}], Filling -> Axis,
Frame -> {True, True, False, False},
FrameLabel -> {"k (Max gap)", "Probability"},
PlotLabel -> StringForm["m=``,n=``,smooth histogram of maximum map for `` trials", m, n, trials]][![enter image description here][1]][1]

— AaronBecker
fonte

Com essas condições, você deve ter n <= m. Eu acho que você quer g = {a_ (1), a_ (2) -a_ (1), ..., a_ (n) -a_ (n-1)}. Selecionar aleatoriamente significa selecionar cada número com probabilidade 1 / m no primeiro sorteio? Como você não substitui, a probabilidade seria 1 / (m-1) no segundo e assim por diante até 1 no m-ésimo empate, se n = m. Se n <m, isso parava mais cedo, com o último empate tendo probabilidade 1 / (m- (n-1)) no enésimo empate.

— Michael R. Chernick 31/12/16

Sua descrição original de

não fazia sentido, porque (acredito) você transpôs dois dos subscritos. Verifique se minha edição está de acordo com sua intenção: em particular, confirme que você quer que haja

lacunas, das quais

é a primeira.

g

$g$

n

$n$

a_{(1)}

$a_{(1)}$

— whuber

@gung Acho que isso é pesquisa, e não auto-estudo

— Glen_b -Reinstate Monica

Eu acho que seus tamanhos mínimo e máximo de gap devem ser

. O tamanho mínimo do intervalo é quando números inteiros consecutivos são escolhidos, e o tamanho máximo do intervalo ocorre quando você seleciona

primeiros inteiros

(ou

)

1

$1$

m - n + 1

$m-n+1$

m

$m$

n - 1

$n-1$

1, \dots, n - 1

$1,\dots,n-1$

1

$1$

m - n + 2, \dots, m

$m-n+2,\dots,m$

— probabilityislogic

Obrigado Michael Chernick e probabilityislogic, suas correções foram feitas. Obrigado @whuber por fazer a correção!

— AaronBecker

Seja a chance de que o mínimo, , seja igual a ; isto é, a amostra consiste em e um subconjunto de . Existem $f(g;n,m)$ $a_{(1)}$ $g$ $g$ $n-1$ $\{g+1,g+2,\ldots,m\}$ tais subconjuntos do $\binom{m-g}{n-1}$ subconjuntos igualmente prováveis, de onde $\binom{m}{n}$

Pr (a_{(1)} = g = f (g; n, m) = \frac{(\binom{m - g}{n - 1})}{(\binom{m}{n})} .

$\Pr(a_{(1)}=g = f(g;n,m) = \frac{\binom{m-g}{n-1}}{\binom{m}{n}}.$

Adicionar para todos os valores possíveis de maiores que produz a função de sobrevivência $f(k;n,m)$ $k$ $g$

Pr (a_{(1)} > g) = Q (g; n, m) = \frac{(m - g) (\binom{m - g - 1}{n - 1})}{n (\binom{m}{n})} .

$\Pr(a_{(1)} \gt g) = Q(g;n,m)= \frac{(m-g)\binom{m-g-1}{n-1}}{n \binom{m}{n}}.$

Seja a variável aleatória dada pela maior lacuna: $G_{n,m}$

G_{n, m} = max (a_{(1)}, a_{(2)} - a_{(1)}, \dots, a_{(n)} - a_{(n - 1)}) .

$G_{n,m} = \max\left(a_{(1)}, a_{(2)}-a_{(1)}, \ldots, a_{(n)}-a_{(n-1)}\right).$

(This responds to the question as originally framed, before it was modified to include a gap between $a_{(n)}$ and $m$ .) We will compute its survival function

P (g; n, m) = Pr (G_{n, m} > g),

$P(g;n,m)=\Pr(G_{n,m}\gt g),$ from which the entire distribution of

G_{n, m}

$G_{n,m}$ is readily derived. The method is a dynamic program beginning with

n = 1

$n=1$ , for which it is obvious that

\begin{matrix} (1) & P (g; 1, m) = Pr (G_{1, m} > 1) = \frac{m - g}{m}, g = 0, 1, \dots, m . \end{matrix}

$P(g;1,m) = \Pr(G_{1,m} \gt 1) = \frac{m-g}{m},\ g=0, 1, \ldots, m.\tag{1}$

For larger $n\gt 1$ , note that the event $G_{n,m}\gt g$ is the disjoint union of the event

a_{1} > g,

$a_{1} \gt g,$

for which the very first gap exceeds $g$ , and the $g$ separate events

a_{1} = k and G_{n - 1, m - k} > g, k = 1, 2, \dots, g

$a_{1}=k\text{ and } G_{n-1,m-k} \gt g, \ k=1, 2, \ldots, g$

for which the first gap equals $k$ and a gap greater than $g$ occurs later in the sample. The Law of Total Probability asserts the probabilities of these events add, whence

\begin{matrix} (2) & P (g; n, m) = Q (g; n, m) + \sum_{k = 1}^{g} f (k; n, m) P (g; n - 1, m - k) . \end{matrix}

$P(g;n,m) = Q(g;n,m) + \sum_{k=1}^g f(k;n,m) P(g;n-1,m-k).\tag{2}$

Fixing $g$ and laying out a two-way array indexed by $i=1,2,\ldots,n$ and $j=1,2,\ldots,m$ , we may compute $P(g;n,m)$ by using $(1)$ to fill in its first row and $(2)$ to fill in each successive row using $O(gm)$ operations per row. Consequently the table can be completed in $O(gmn)$ operations and all tables for $g=1$ through $g=m-n+1$ can be constructed in $O(m^3n)$ operations.

These graphs show the survival function $g\to P(g;n,64)$ for $n=1,2,4,8,16,32,64$ . As $n$ increases, the graph moves to the left, corresponding to the decreasing chances of large gaps.

Closed formulas for $P(g;n,m)$ can be obtained in many special cases, especially for large $n$ , but I have not been able to obtain a closed formula that applies to all $g,n,m$ . Good approximations are readily available by replacing this problem with the analogous problem for continuous uniform variables.

Finally, the expectation of $G_{n,m}$ is obtained by summing its survival function starting at $g=0$ :

E (G_{n, m}) = \sum_{g = 0}^{m - n + 1} P (g; n, m) .

$\mathbb{E}(G_{n,m}) = \sum_{g=0}^{m-n+1} P(g;n,m).$

This contour plot of the expectation shows contours at $2, 4, 6, \ldots, 32$ , graduating from dark to light.

— whuber
fonte

Suggestion: line "Let

G_{n, m}

$G_{n,m}$ be the random variable given by the largest gap:", please add the last gap of

m + 1 - a_{n}

$m+1-a_{n}$ . Your expectation plot matches my Monte Carlo simulation.

— AaronBecker