Peço desculpas antecipadamente pela duração deste post: é com alguma ansiedade que eu o exponho em público, porque leva algum tempo e atenção para ler e, sem dúvida, há erros tipográficos e lapsos expositivos. Mas aqui está para aqueles que estão interessados no tópico fascinante, oferecido na esperança de que o incentive a identificar uma ou mais das muitas partes da CLT para uma elaboração mais detalhada das suas próprias respostas.
A maioria das tentativas de "explicar" o CLT são ilustrações ou apenas reafirmações que afirmam que isso é verdade. Uma explicação realmente penetrante e correta teria que explicar muitas coisas.
Antes de analisar isso mais adiante, vamos esclarecer o que o CLT diz. Como todos sabem, existem versões que variam em sua generalidade. O contexto comum é uma sequência de variáveis aleatórias, que são certos tipos de funções em um espaço de probabilidade comum. Para explicações intuitivas que se mantêm rigorosamente, acho útil pensar em um espaço de probabilidade como uma caixa com objetos distinguíveis. Não importa quais são esses objetos, mas eu os chamarei de "tickets". Fazemos uma "observação" de uma caixa misturando minuciosamente os ingressos e retirando um; esse bilhete constitui a observação. Após gravá-lo para análise posterior, devolvemos o ticket à caixa para que seu conteúdo permaneça inalterado. Uma "variável aleatória" basicamente é um número escrito em cada ticket.
Em 1733, Abraham de Moivre considerou o caso de uma única caixa onde os números nos bilhetes são apenas zeros e uns ("julgamentos de Bernoulli"), com parte de cada número presente. Ele imaginou fazer observações fisicamente independentes , produzindo uma sequência de valores x 1 , x 2 , ... , x n , todos os quais são zero ou um. A soma desses valores, y n = x 1 + x 2 + … + x nnx1,x2,…,xnyn=x1+x2+…+xn, é aleatório porque os termos na soma são. Portanto, se pudéssemos repetir esse procedimento várias vezes, várias somas (números inteiros variando de a n ) apareceriam com várias frequências - proporções do total. (Veja os histogramas abaixo.)0n
Agora, seria de esperar - e é verdade - que, para valores muito grandes de , todas as frequências fossem bem pequenas. Se tivéssemos de ser tão ousado (ou tolo) como para tentar "dar um limite" ou "deixe n ir para ∞ ", podemos concluir corretamente que todas as frequências reduzir para 0 . Mas se simplesmente desenharmos um histograma das frequências, sem prestar atenção à forma como seus eixos são rotulados, veremos que os histogramas para n grandes começam a ter a mesma aparência: em certo sentido, esses histogramas se aproximam de um limite, mesmo que as frequências todos eles vão a zero.nn∞0n
Esses histogramas mostram os resultados da repetição do procedimento de obtenção várias vezes. n é o "número de tentativas" nos títulos.ynn
O insight aqui é desenhar o histograma primeiro e rotular seus eixos posteriormente . Com grande, o histograma cobre uma grande variedade de valores centralizados em torno de n / 2 (no eixo horizontal) e um intervalo de valores extremamente pequeno (no eixo vertical), porque as frequências individuais crescem muito pequenas. Ajustar essa curva na região de plotagem exigiu, portanto, uma mudança e redimensionamento do histograma. A descrição matemática disso é que, para cada n , podemos escolher algum valor central m n (não necessariamente único!) Para posicionar o histograma e algum valor de escala s nnn/2nmnsn(não necessariamente exclusivo!) para ajustá-lo aos eixos. Isso pode ser feito matematicamente alterando para z n = ( y n - m n ) / s n .ynzn= ( yn- mn) / sn
Lembre-se de que um histograma representa frequências por áreas entre ele e o eixo horizontal. A eventual estabilidade desses histogramas para grandes valores de deve, portanto, ser declarada em termos de área. n Portanto, escolha qualquer intervalo de valores que desejar, digamos de a b > a e, à medida que n aumenta, rastreie a área da parte do histograma de z n que mede horizontalmente o intervalo ( a , b ] . O CLT afirma vários coisas:umab > anzn( a , b )
Não importa o que e b sejam,umab se escolhermos as seqüências e s n adequadamente (de uma maneira que não dependa de a ou b ), essa área realmente se aproxima de um limite à medida que n aumenta.mnsnumabn
As seqüências e s n podem ser escolhidas de uma maneira que depende apenas de n , da média dos valores na caixa e de alguma medida da dispersão desses valores - mas de nada mais - para que, independentemente do que esteja em Na caixa, o limite é sempre o mesmo. (Essa propriedade de universalidade é incrível.)mnsnn
Especificamente, que a área de limitação é a área sob a curva entreumeb: esta é a fórmula de que histograma limitando universal.y= exp( - z2/ 2) / 2 π--√umab
A primeira generalização do CLT acrescenta,
Quando a caixa pode conter números além de zeros e uns, exatamente as mesmas conclusões são válidas (desde que as proporções de números extremamente grandes ou pequenos na caixa não sejam "muito grandes", um critério que possui uma declaração quantitativa precisa e simples) .
A próxima generalização, e talvez a mais surpreendente, substitui essa única caixa de tickets por uma longa variedade de caixas ordenadas por tempo indeterminado. Cada caixa pode ter números diferentes em seus tickets em diferentes proporções. A observação é feita sorteando um ticket da primeira caixa, x 2 vem da segunda caixa e assim por diante.x1 1x2
Exatamente as mesmas conclusões são válidas, desde que o conteúdo das caixas "não seja muito diferente" (existem várias caracterizações quantitativas precisas, mas diferentes, do que "não é muito diferente" significa; elas permitem uma quantidade surpreendente de latitude).
Essas cinco afirmações, no mínimo, precisam ser explicadas. Tem mais. Vários aspectos intrigantes da instalação estão implícitos em todas as instruções. Por exemplo,
O que há de especial na soma ? Por que não temos teoremas de limite central para outras combinações matemáticas de números, como seu produto ou seu máximo? (Acontece que sim, mas eles não são tão gerais nem sempre têm uma conclusão tão limpa e simples, a menos que possam ser reduzidos ao CLT.) As seqüências de e s n não são únicas, mas são quase único no sentido de que, eventualmente, eles precisam aproximar a expectativa da soma de n tickets e o desvio padrão da soma, respectivamente (que, nas duas primeiras instruções do CLT, é igual a √mnsnn vezes o desvio padrão da caixa). n--√
O desvio padrão é uma medida da difusão de valores, mas não é de forma alguma o único nem o mais "natural", tanto historicamente quanto para muitas aplicações. (Muitas pessoas escolheriam algo como um desvio absoluto médio da mediana , por exemplo.)
Por que o SD aparece de uma maneira tão essencial?
Considere a fórmula do histograma limitador: quem esperaria que ele assumisse essa forma? Diz que o logaritmo da densidade de probabilidade é uma função quadrática . Por quê? Existe alguma explicação intuitiva ou clara e convincente para isso?
Confesso que sou incapaz de alcançar o objetivo final de fornecer respostas que sejam simples o suficiente para atender aos critérios desafiadores de Srikant de intuitividade e simplicidade, mas traçei esse pano de fundo na esperança de que outros possam ser inspirados a preencher algumas das muitas lacunas. Eu acho que uma boa demonstração acabará por depender de uma análise elementar de como os valores entre e β n = b s n + m n podem surgir na formação da soma x 1 + x 2 + … + x nαn= a sn+ mnβn= b sn+ mnx1 1+ x2+ … + Xn. Voltando à versão em caixa única do CLT, o caso de uma distribuição simétrica é mais simples de manusear: sua mediana é igual à sua média, então há 50% de chance de que seja menor que a média da caixa e 50% de chance que x i será maior que sua média. Além disso, quando n é suficientemente grande, os desvios positivos da média devem compensar os desvios negativos da média. (Isso requer alguma justificativa cuidadosa, e não apenas a mão.) Portanto , devemos nos preocupar principalmente em contar os números de desvios positivos e negativos e ter apenas uma preocupação secundária com seus tamanhos.xEuxEun (De todas as coisas que escrevi aqui, isso pode ser mais útil para fornecer alguma intuição sobre o funcionamento da CLT. De fato, as suposições técnicas necessárias para tornar verdadeiras as generalizações da CLT são essencialmente várias maneiras de excluir a possibilidade de que desvios enormes e raros perturbarão o equilíbrio o suficiente para impedir o surgimento do histograma limitador.)
Isso mostra, até certo ponto, por que a primeira generalização do CLT não revela realmente nada que não estivesse na versão de teste original de de Moivre, Bernoulli.
Nesse ponto, parece que não há nada a fazer além de fazer um pouco de matemática: precisamos contar o número de maneiras distintas pelas quais o número de desvios positivos da média pode diferir do número de desvios negativos por qualquer valor predeterminado , onde evidentemente k é um de - n , - n + 2 , … , n - 2 , n . Mas, como os erros desaparecem no limite, não precisamos contar com precisão; precisamos apenas aproximar as contagens. Para esse fim, basta saber quekk- n , - n + 2 , … , n - 2 , n
O número de maneiras de obter valores k positivos e n - k negativos de n
é igual a n - k + 1k
vezes o número de maneiras de obter valores k - 1 positivos e n - k + 1 negativos.
(Esse é um resultado perfeitamente elementar, então não vou me preocupar em anotar a justificativa.) Agora, aproximamos o atacado. A frequência máxima ocorre quando é o mais próximo possível de n / 2 (também elementar). Vamos escrever m = n / 2 . Então, em relação à frequência máxima, a frequência de m + j + 1 desvios positivos ( j ≥ 0 ) é estimada pelo produtokn / 2m = n / 2m + j + 1j ≥ 0
m + 1m + 1mm + 2⋯ m - j + 1m + j + 1
= 1 - 1 / ( m + 1 )1 + 1 / ( m + 1 )1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
135 anos antes de De Moivre escrever, John Napier inventou logaritmos para simplificar a multiplicação, então vamos tirar proveito disso. Usando a aproximação
log(1−x1+x)∼−2x,
descobrimos que o log da frequência relativa é aproximadamente
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Como o erro cumulativo é proporcional a , isso deve funcionar bem, desde que j 4 seja pequeno em relação a m 3 . Isso abrange uma faixa maior de valores de j do que o necessário. (Basta que a aproximação funcione para j somente na ordem de √j4/m3j4m3jj que assintoticamente é muito menor do quem 3 / 4 .)m--√m3 / 4
Obviamente, muito mais análises desse tipo devem ser apresentadas para justificar as outras afirmações no CLT, mas estou ficando sem tempo, espaço e energia e provavelmente perdi 90% das pessoas que começaram a ler isso de qualquer maneira. Essa aproximação simples, no entanto, sugere como Moivre poderia inicialmente suspeitar que existe uma distribuição limitadora universal, que seu logaritmo é uma função quadrática e que o fator de escala adequado deve ser proporcional a √sn (porquej2/m=2j2/n=2(j/ √n--√) j2/m=2j2/n=2(j/n−−√)2 É difícil imaginar como essa importante relação quantitativa poderia ser explicada sem invocar algum tipo de informação e raciocínio matemático; qualquer coisa menos deixaria a forma precisa da curva limitante um completo mistério.