Podemos adotar várias abordagens para isso, qualquer uma das quais pode parecer intuitiva para algumas pessoas e menos intuitiva para outras. Para acomodar essa variação, esta resposta examina várias dessas abordagens, cobrindo as principais divisões do pensamento matemático - análise (o infinito e o infinitesimal), geometria / topologia (relações espaciais) e álgebra (padrões formais de manipulação simbólica) - como bem como a própria probabilidade. Ele culmina com uma observação que unifica todas as quatro abordagens, demonstra que há uma pergunta genuína a ser respondida aqui e mostra exatamente qual é o problema. Cada abordagem fornece, à sua maneira, uma visão mais profunda da natureza das formas das funções de distribuição de probabilidade de somas de variáveis uniformes independentes.
fundo
A distribuição Uniform [0,1] possui várias descrições básicas. Quando tem essa distribuição,X
A chance de em um conjunto mensurável A é apenas a medida (comprimento) de A ∩ [ 0 , 1 ] , escrita | A ∩ [ 0 , 1 ] | .XAA∩[0,1]|A∩[0,1]|
A partir disso, é imediato que a função de distribuição cumulativa (CDF) seja
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
A função densidade de probabilidade (PDF), que é a derivada do CDF, é para e de outro modo. (É indefinido em e )0 ≤ x ≤ 1 f X ( x ) = 0 0 1fX(x)=10≤x≤1fX(x)=001
Intuição a partir de funções características (análise)
A função característica (CF) de qualquer variável aleatória é a expectativa de (onde é a unidade imaginária, ). Usando o PDF de uma distribuição uniforme, podemos calcularexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
O CF é uma (versão da) transformada de Fourier do PDF, . Os teoremas mais básicos sobre transformadas de Fourier são:ϕ(t)=f^(t)
O CF de uma soma das variáveis independentes é o produto de seus CFs.X+Y
Quando o PDF original é contínuo e é delimitado, pode ser recuperado do CF por uma versão intimamente relacionada da transformação de Fourier,X f ϕfXfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
Quando é diferenciável, sua derivada pode ser calculada sob o sinal integral:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Para que isso seja bem definido, a última integral deve convergir absolutamente; isso é,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
deve convergir para um valor finito. Inversamente, quando converge, a derivada existe em toda parte em virtude dessas fórmulas de inversão.
Agora está claro exatamente o quão diferenciável é o PDF para uma soma de variáveis uniformes: desde o primeiro marcador, o CF da soma das variáveis iid é o CF de uma delas elevada ao poder , aqui igual a . O numerador é delimitado (consiste em ondas senoidais) enquanto o denominador é . Podemos multiplicar esse integrando por e ele ainda convergirá absolutamente quando e convergirá condicionalmente quando . Assim, a aplicação repetida do terceiro marcador mostra que o PDF para a soma de variáveis uniformes será continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)−1)n/(it)nO(tn)tss<n−1s=n−1nn−2vezes diferenciáveis e, na maioria dos lugares, será vezes diferenciável.n−1
A curva sombreada em azul é um gráfico log-log do valor absoluto da parte real do CF da soma de iid de variáveis uniformes. A linha vermelha tracejada é uma assíntota; sua inclinação é , mostrando que o PDF é vezes diferenciável. Para referência, a curva cinza representa a parte real do CF para uma função Gaussiana de formato semelhante (um PDF normal).- 10 10 - 2 = 8n=10−1010−2=8
Intuição da Probabilidade
Seja e variáveis aleatórias independentes, onde tem uma distribuição uniforme . Considere um intervalo estreito . Nós decompomos a chance de que na chance de que esteja suficientemente próximo desse intervalo vezes a chance de que tenha o tamanho certo para colocar nesse intervalo, considerando que está próximo o suficiente:YXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+YY
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
A igualdade final vem da expressão para o PDF de . Dividir os dois lados por e tomar o limite como dáXdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
Em outras palavras, adicionar uma variável uniforme a qualquer variável altera o pdf em um CDF diferenciado . Como o PDF é a derivada do CDF, isso implica que cada vez que adicionamos uma variável uniforme independente a , o PDF resultante é uma vez mais diferenciável do que antes.[0,1]XYfYFY(t)−FY(t−1)Y
Vamos aplicar esta visão, começando com uma variável uniforme . O PDF original não pode ser diferenciado em ou : é descontínuo lá. A PDF de não é diferenciável em , , ou , mas deve ser contínua naqueles pontos, uma vez que é a diferença de integrais da PDF de . Adicione outra variável uniforme independente : o PDF de é diferenciável em , , e mas não tem necessariamente o segundoY01Y+X012YX2Y+X+X2 0123derivados nesses pontos. E assim por diante.
Intuição da Geometria
A CDF em de uma soma de uniforme iid variates é igual ao volume da unidade hipercúbica encontra-se no interior da meia-espaço . A situação para variáveis é mostrada aqui, com definido em , e depois em .tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
À medida que progride de a , o hiperplano cruza os vértices em , . A cada vez, a forma da seção transversal muda: na figura, primeiro é um triângulo (um simplex), depois um hexágono, depois um triângulo novamente. Por que o PDF não possui curvas acentuadas com esses valores de ?t0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2t
Para entender isso, primeiro considere pequenos valores de . Aqui, o hiperplano corta um -simplex. Todas as dimensões do simplex são diretamente proporcionais a , de onde sua "área" é proporcional a . Alguma notação para isso será útil mais tarde. Seja a "função de etapa da unidade"tHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
Se não fosse a presença dos outros cantos do hipercubo, esse dimensionamento continuaria indefinidamente. Um gráfico da área do -simplex seria semelhante à curva azul sólida abaixo: é zero em valores negativos e é igual ano positivo, convenientemente escrito. Ele tem uma "torção" da ordem na origem, no sentido de que todas as derivadas da ordem existem e são contínuas, mas que as derivadas esquerda e direita da ordem existem, mas não concordam na origem .n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2n−3n−2
(As outras curvas mostradas nesta figura são (Vermelho), (Ouro) e (Preto). Seus papéis no caso são discutidos mais adiante.)−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2!n=3
Para entender o que acontece quando cruza , vamos examinar em detalhes o caso , onde toda a geometria acontece em um plano. Podemos ver a unidade "cubo" (agora apenas um quadrado) como uma combinação linear de quadrantes , como mostrado aqui:t1n=2
O primeiro quadrante aparece no painel inferior esquerdo, em cinza. O valor de é , determinando a linha diagonal mostrada nos cinco painéis. O CDF é igual à área amarela mostrada à direita. Esta área amarela é composta por:t1.5
A área cinza triangular no painel inferior esquerdo,
menos a área verde triangular no painel superior esquerdo,
menos a área triangular vermelha no painel central baixo,
além de qualquer área azul no painel central superior (mas não existe essa área, nem haverá até exceder ).t2
Cada uma dessas áreas é a área de um triângulo. A primeira escala como , as duas seguintes são zero para e, de outra forma, escala como , e a última é zero para e de outra forma escala como . Esta análise geométrica estabeleceu que o CDF é proporcional a = ; equivalentemente, o PDF é proporcional à soma das três funções , e2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)nθ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t−2θ(t−1)(t−1)θ(t−2)(t−2)(cada um deles escalando linearmente quando ). O painel esquerdo desta figura mostra seus gráficos: evidentemente, todas são versões do gráfico original , mas (a) deslocadas por , e unidades para a direita e (b) redimensionadas por , e , respectivamente.n=2θ(t)t0121−21
O painel direito mostra a soma desses gráficos (a curva preta sólida, normalizada para ter área de unidade: este é precisamente o PDF de aparência angular mostrado na pergunta original.
Agora podemos entender a natureza das "dobras" no PDF de qualquer soma das variáveis uniformes do iid. Eles são exatamente iguais ao "kink" que ocorre em na função , possivelmente redimensionada e deslocada para os números inteiros correspondentes a onde o hiperplano cruza os vértices do hipercubo. Para , essa é uma mudança visível na direção: a derivada direita de em é enquanto sua derivada esquerda é . Para , este é um contínuo0θ(t)tn−11,2,…,nHn(t)n=2θ(t)t001n=3mudança de direção, mas uma mudança repentina (descontínua) na segunda derivada. Para o geral , haverá derivadas contínuas através da ordem mas uma descontinuidade na derivada .nn−2n−1st
Intuição da manipulação algébrica
A integração para calcular o CF, a forma da probabilidade condicional na análise probabilística e a síntese de um hipercubo como uma combinação linear de quadrantes sugerem retornar à distribuição uniforme original e reexpressá-la como uma combinação linear de coisas mais simples . De fato, seu PDF pode ser escrito
fX(x)=θ(x)−θ(x−1).
Vamos apresentar o operador de deslocamento : ele atua em qualquer função deslocando seu gráfico uma unidade para a direita:Δf
(Δf)(x)=f(x−1).
Formalmente, então, para o PDF de uma variável uniforme podemos escreverX
fX=(1−Δ)θ.
O PDF de uma soma de uniformes IID é a convolução de consigo mesma vezes. Isto decorre da definição de uma soma de variáveis aleatórias: a convolução de duas funções e é a funçãonfXnfg
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
É fácil verificar se a convolução comuta com . Basta alterar a variável de integração de para :Δyy+1
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
Para o PDF da soma de iid uniformes, podemos agora proceder algebricamente para escrevern
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(onde "poder" denota convolução repetida, não multiplicação pontual!). Agora é uma integração direta e elementar, fornecendoθ ⋆ n⋆nθ⋆n
θ⋆n(x)=θ(x)xn−1n−1!.
O resto é álgebra, porque o Teorema Binomial se aplica (como em qualquer álgebra comutativa sobre os reais):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Como apenas muda seu argumento por , isso exibe o PDF como uma combinação linear de versões deslocadas de , exatamente como deduzimos geometricamente:Δiifθ(x)xn−1
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook cita essa fórmula posteriormente em sua postagem no blog, usando a notação para .)(x−i)n−1+(x−i)n−1θ(x−i)
Assim, como é uma função suave em qualquer lugar, qualquer comportamento singular do PDF ocorrerá apenas em locais onde é singular (obviamente apenas ) e nesses locais deslocados para a direita por . A natureza desse comportamento singular - o grau de suavidade - será, portanto, a mesma em todos os locais.xn−1θ(x)01,2,…,nn+1
Ilustrando esta é a figura para , mostrando (no painel esquerdo) os termos individuais na soma e (no painel direito) as somas parciais, culminando na própria soma (curva preta sólida):n=8
Comentários finais
É interessante notar que esta última abordagem tem finalmente cedeu uma expressão compacto, prático para o cálculo do PDF de uma soma de variáveis uniformes IID. (Uma fórmula para o CDF é obtida da mesma forma.)n
O Teorema do Limite Central tem pouco a dizer aqui. Afinal, uma soma de variáveis binomiais iid converge para uma distribuição Normal, mas essa soma é sempre discreta: ela nem sequer possui um PDF! Não devemos esperar que qualquer intuição sobre "distorções" ou outras medidas de diferenciabilidade de um PDF venha do CLT.