Número esperado de vezes que a média empírica excederá um valor

Dada uma sequência de variáveis aleatórias iid, digamos, para , estou tentando limitar o número esperado de vezes que a média empírica excederá um valor, , enquanto continuamos a desenhar amostras, ou seja: $X_i \in [0,1]$ $i = 1,2,...,n$ $\frac{1}{n}\sum_{i=1}^n X_i$ $c \geq 0$

T \overset{d e f}{=} \sum_{j = 1}^{n} P ({\frac{1}{j} \sum_{i = 1}^{j} X_{i} \geq c})

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \mathbb{P} \left(\left\{ \frac{1}{j}\sum_{i=1}^j X_i \geq c\right\}\right)$

Se assumirmos que para alguns , podemos usar a desigualdade de Hoeffding para chegar a $c = a + \mathbb{E}[X]$ $a > 0$

\begin{aligned} T & \leq \sum_{j = 1}^{n} e^{- 2 j a^{2}} \\ = \frac{1 - e^{- 2 a^{2} n}}{e^{2 a^{2}} - 1} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n e^{-2ja^2} \\ & = \frac{1 - e^{-2 a^2 n}}{e^{2 a^2}-1} \end{align}$

O que parece bom (talvez), mas, na verdade, é muito limitado, existem maneiras melhores de limitar esse valor? Espero que possa haver uma maneira, já que os diferentes eventos (para cada ) claramente não são independentes, não tenho conhecimento de nenhuma maneira de explorar essa dependência. Além disso, seria bom remover a restrição de que é maior que a média. $j$ $c$

edit : A restrição de ser maior que a média pode ser removida se usarmos a desigualdade de Markov da seguinte maneira: $c$

\begin{aligned} T & \leq \sum_{j = 1}^{n} \frac{\frac{1}{j} E [X]}{c} \\ = \frac{E [X] H_{n}}{c} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n \frac{\frac{1}{j}\mathbb{E}[X]}{c} \\ & = \frac{\mathbb{E}[X]H_n}{c} \end{align}$ que é mais geral, mas muito pior que o limite acima, embora seja claro que deve divergir sempre que .

T

$\mathcal{T}$

c \leq E [X]

$c \leq \mathbb{E}[X]$

mathematical-statistics expected-value bounds

— fairidox
fonte

Sua definição de não corresponde à sua descrição. Se os " " foram removidos, seria o número esperado de excedências de , mas, como está escrito, é uma combinação linear dos tempos . Não é manifestamente uma expectativa, porque as probabilidades não são mutuamente exclusivas. Por exemplo, quando , .

T

$\mathcal{T}$

j \times

$j\times$

c

$c$

c \leq 0

$c\le 0$

T = n (n + 1) / 2

$\mathcal{T} = n(n+1)/2$

— whuber

@ Whuber oh, certo, bom argumento obrigado, eu consertei acima.

— fairidox

Percebo que você mudou seu limite superior. Agora parece ser negativo ;-).

— whuber

O " " no exponencial não deve ser quadrado? - Ok, simplifica com o domínio [0,1]

j

$j$

— Alecos Papadopoulos

Essa é uma abordagem feita à mão, e eu realmente aprecio alguns comentários sobre ela (e as críticas são geralmente as mais úteis). Se bem entendi, o OP calcula as médias da amostra , onde cada amostra contém a amostra anterior +1 da observação de um novo rv Denote a distribuição da média de cada amostra. Então nós podemos escrever $\bar x_j$ $F_j$

T \overset{d e f}{=} \sum_{j = 1}^{n} (1 - F_{j} (c)) = n - \sum_{j = 1}^{n} F_{j} (c)

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \left(1-F_j(c)\right) = n- \sum_{j=1}^n F_j(c)$

Considere-se um tamanho da amostra , após o que a distribuição da média da amostra é quase normal, denotar que . Então nós podemos escrever $m$ $\hat G$

T = n - \sum_{j = 1}^{m} F_{j} (c) - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c) < n - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c)

$\mathcal{T} = n- \sum_{j=1}^m F_j(c)-\sum_{j=m+1}^n \hat G_j(c) < n-\sum_{j=m+1}^n \hat G_j(c)$

Resolvendo obtemos onde é o padrão normal cdf, é o desvio padrão do processo iid e é sua média. Inserindo no limite e reorganizando, obtemos $\hat G_j(c)$

{\hat{G}}_{j} (c) = 1 - Φ (\frac{\sqrt{j}}{σ} (μ - c))

$\hat G_j(c) = 1- \Phi\left(\frac{\sqrt j}{\sigma}(\mu-c)\right)$

Φ

$\Phi$

σ

$\sigma$

μ

$\mu$

T < m + \sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\mathcal{T} < m+\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

Observe que esse limite depende também da variação do processo. Este é um limite melhor do que o apresentado na pergunta? Isso dependerá crucialmente de quão "rapidamente" a distribuição da média da amostra se torna "quase normal". Para dar um exemplo numérico, assuma que . Suponha também que as variáveis aleatórias sejam uniformes em . Então e . Considere um desvio de 10% da média, ou seja, defina . então: já para o limite que proponho (que é significativo para ) fica mais apertado. Para o limite de Hoeffding é $m= 30$ $[0,1]$ $\sigma = \sqrt \frac{1}{12}$ $\mu = \frac 12$ $a=0.05$ $n=34$ $n>30$ $n=100$ $78.5$ enquanto o limite que proponho é . O Hoeffding ligado converge para enquanto o ligado propomos a Se aumentar a discrepância entre os dois limites reduz mas permanece visível: para um desvio de 20%, , o Hoeffding ligado converge a , enquanto o O limite que proponho converge para (ou seja, a soma dos cdfs normais contribui muito pouco para o limite geral). De um modo mais geral, notamos que para o limite de Hoeffding converge para $36.2$ $\approx 199.5$ $\approx 38.5$ $a$ $a=0.1$ $49.5$ $30.5$
$n\rightarrow \infty$

H_{b} \to \frac{1}{e^{2 a^{2}} - 1}

$H_b\rightarrow \frac{1}{e^{2 a^2}-1}$ enquanto meu limite para

A_{b} \to m

$A_b \rightarrow m$

Como para valores pequenos de (que é bastante o caso de interesse) se torna um número grande, ainda existe o caso de superá-lo com força, mesmo que a amostra seja tal que a distribuição da média da amostra converja lentamente para a distribuição normal. $a$ $H_b$ $A_b$

— Alecos Papadopoulos
fonte

" (ou seja, não mais do que o limite de tamanho amostral assumido, é necessário obter a aproximação normal na distribuição da média da amostra) " do que você está falando aqui?

— Glen_b -Reinstala Monica 5/09

Nada importante. Como escrevi algumas linhas acima, uma regra prática para que a distribuição da média da amostra seja "muito" como o normal é que precisamos de pelo menos um tamanho de amostra 30. Portanto, para o tamanho da amostra 100 e um desvio de 20% Nesse caso, meu limite é ou seja, - em outras palavras, parte do limite contribui muito pouco.

\approx 30.5

$\approx 30.5$

m + 0.5

$m + 0.5$

\sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

— Alecos Papadopoulos

A menos que você possa declarar as circunstâncias em que se encontra , evite chamar essa coisa de regra geral em qualquer sentido geral. O número 30 é completamente arbitrário (geralmente muito fraco ou muito forte), e esse número 30 também aparece no seu caso, acredito que seja uma simples coincidência.

— Glen_b -Reinstala Monica 5/09

@Glen_b "30" não foi nem uma coincidência - eu apenas a usei para fornecer um exemplo numérico. Não tenho objeções ao assunto, não gosto de "regras de ouro" (especialmente quando são duvidosas). Fiz algumas alterações na minha resposta. Obrigado pela contribuição.

— Alecos Papadopoulos

@Glen_b Obrigado pela memória possivelmente não estacionária (ou seja, longa)!

— Alecos Papadopoulos