O que torna indefinida a média de algumas distribuições?


21

Muitos PDFs variam de menos a infinito positivo, mas alguns meios são definidos e outros não. Que característica comum torna computável?


14
Integrais convergentes.
Sycorax diz Restabelecer Monica

1
Essas distribuições são abstrações matemáticas. Se a integral não convergir, a média não será definida. No entanto, o que não é mencionado nas respostas abaixo é que PDFs com menos infinito a mais infinito não podem modelar fontes de dados reais. Não existe esse processo físico para gerar esses dados na vida real. Na minha opinião, todas as fontes de dados reais serão limitadas e você poderá aproximar a média.
Cagdas Ozgenc # 02/16

3
@Agagdas Essa observação não parece estar correta. Existem muitos processos de cauda pesada. Suas expectativas divergentes se manifestam como extrema variabilidade nas médias de longo prazo. Para uma aplicação convincente de um modelo de Cauchy, por exemplo, consulte a publicação de Douglas Zare em stats.stackexchange.com/a/36037/919 .
whuber

2
@CagdasOzgenc: Você deve ler o Black Swan de Taleb para ver o quão errado esse raciocínio está. Embora heuristicamente possa não haver um processo que gere perfeitamente uma distribuição com média indefinida ou média infinita, há muitos exemplos em que as pessoas subestimam o quão gordas são as caudas de sua distribuição e procedem ao cálculo de médias, enquanto a verdadeira distribuição tem um significa que é completamente diferente e geralmente inclinado para a direita. Esse tipo de raciocínio impróprio levou a muitos gafs de avaliação de risco nas finanças, onde o risco é subestimado por muitas ordens de magnitude.
Alex R.

1
@Cagdas Ozgenc: Para uma discussão porque seu argumento é errado ver stats.stackexchange.com/questions/94402/...
b Kjetil Halvorsen

Respostas:


23

A média de uma distribuição é definida em termos de uma integral (escreverei como se fosse uma distribuição contínua - como uma integral de Riemann, por exemplo - mas a questão se aplica de maneira mais geral; podemos prosseguir com a integração de Stieltjes ou Lebesgue para lidar com corretamente e tudo de uma vez):

E(X)=xf(x)dx

Mas o que isso significa? É efetivamente uma abreviação de

a,blimabxf(x)dx

ou

alima0xf(x)dx+blim0bxf(x)dx

(embora você possa quebrá-lo em qualquer lugar, não apenas em 0)

O problema surge quando os limites dessas integrais não são finitos.

Por exemplo, considere a densidade padrão de Cauchy, que é proporcional a ... observe que11+x2

blim0bx1+x2dx

Seja , então d u = 2 xu=1+x2du=2xdx

=blim1211+b21udu

=blim12ln(u)|11+b2

=blim12ln(1+b2)

o que não é finito. O limite na metade inferior também não é finito; a expectativa é assim indefinida.

Ou se tivéssemos como variável aleatória o valor absoluto de um Cauchy padrão, toda a sua expectativa seria proporcional ao limite que acabamos de ver (ie ).blim12ln(1+b2)

Por outro lado, algumas outras densidades continuam "até o infinito", mas sua integral tem um limite.


1
Você pode (é claro) também ver a mesma coisa em distribuições de probabilidade discretas semelhantes. Faça uma distribuição em que a probabilidade de ocorrência de , para o número inteiro n > 0 , seja proporcional a 1nn>0 . A soma das probabilidades é finita (o que é tão bom quanto ele precisa ter o limite 1: na verdade, nossa constante deve ser61n2 ou o que for), mas desde a soma de16π2 diverge, não tem significado. Considerando que, se escolhermos uma probabilidade proporcional a11n então a média envolve uma soma de11n3 e estamos bem, isso é "pequeno o suficiente" para convergir. 1n2
Steve Jessop

1
Sim é a constante de escala para isso (para somar 1). 6π2
Glen_b -Reinstala Monica

8

As outras respostas são boas, mas podem não convencer a todos, especialmente as pessoas que dão uma olhada na distribuição de Cauchy (com ) e dizem que ainda é intuitivamente óbvio que a média deve ser zero.x0=0

A razão pela qual a resposta intuitiva não está correta da perspectiva matemática é devido ao teorema de rearranjo de Riemann (vídeo) .

Efetivamente, o que você faz quando olha para um Cauchy e diz que a média "deve ser zero" é que você está dividindo o "centro" em zero e reivindicando o equilíbrio entre os momentos dos dois tamanhos. Ou, em outras palavras, você está implicitamente fazendo uma soma infinita com "metade" dos termos positivos (os momentos em cada ponto à direita) e "metade" dos termos negativos (os momentos em cada ponto à esquerda) e reivindicando-os soma a zero. (Para o tecnicamente espírito: )0f(x0+r)rdr0f(x0r)rdr=0

O teorema de rearranjo de Riemann diz que esse tipo de soma infinita (uma com termos positivos e negativos) só é consistente se as duas séries (somente termos positivos e somente termos negativos) são convergentes quando tomadas independentemente. Se os dois lados (positivo e negativo) são divergentes por si mesmos, você pode criar uma ordem de soma dos termos, de modo que somar a qualquer número. (Vídeo acima, a partir das 6:50)

Portanto, sim, se você fizer a soma de maneira equilibrada de 0 a 0, os primeiros momentos da distribuição de Cauchy serão cancelados. No entanto, a definição (padrão) de média não impõe essa ordem de soma. Você deve poder somar os momentos em qualquer ordem e ter a mesma validade. Portanto, a média da distribuição de Cauchy é indefinida - escolhendo criteriosamente como você soma os momentos, você pode fazê-los "equilibrar" (ou não) em praticamente qualquer ponto.

Portanto, para definir a média de uma distribuição, as integrais de dois momentos precisam ser convergentes de forma independente (finita) em torno da média proposta (que, quando você faz as contas, é realmente apenas outra maneira de dizer que a integral completa ( ) precisa ser convergente). Se as caudas são "gordas" o suficiente para tornar infinito o momento para um lado, você está pronto. Você não pode equilibrar isso com um momento infinito do outro lado.f(x)xdx


Devo mencionar que o comportamento "contra-intuitivo" de coisas como a distribuição de Cauchy é inteiramente devido a problemas ao pensar no infinito. Pegue a distribuição Cauchy e corte as caudas - mesmo arbitrariamente, como em mais / menos o número xkcd - e (uma vez re-normalizado), de repente você obtém algo que é bem comportado e tem uma média definida. Não são as caudas gordas em si mesmas que são um problema, é como essas caudas se comportam quando você se aproxima do infinito.


Agradável. Gostaria de saber se é possível dar uma "ordem de soma" exlicit que leva a, digamos, duas.
Matthew Drury

@MatthewDrury: p_i e n_i denotam números positivos e negativos. Encontre sucessivamente p_i e n_i para que a integral sobre [n_i, p_i] seja 2+ (1 / i) e a integral sobre [n_ {i + 1}, p_i] seja 2- (1 / i). Pode-se fazer isso explicitamente usando R, matlab ou mathematica, mas apenas por um número finito de termos.
David Epstein

7

O general Abrial e Glen_b tiveram respostas perfeitas. Eu só quero adicionar uma pequena demonstração para mostrar que a média da distribuição Cauchy não existe / não converge.

No experimento a seguir, você verá que, mesmo que você obtenha uma amostra grande e calcule a média empírica da amostra, os números são bem diferentes de experimento para experimento.

set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))

enter image description here

Você pode observar que temos experimentos e, em cada experimento, amostramos 1 × 10 5 pontos de duas distribuições, com um tamanho de amostra tão grande, que a média empírica em diferentes experimentos deve estar bastante próxima da média verdadeira. Os resultados mostram que a distribuição de Cauchy não possui uma média convergente, mas a distribuição normal possui.1001×105

EDITAR:

Como @ mark999 mencionado no bate-papo, devemos argumentar que as duas distribuições usadas no experimento têm uma "variação" semelhante (a razão pela qual eu uso a citação é porque a variação da distribuição de Cauchy também é indefinida). Aqui está a justificativa: o PDF deles é semelhante.

Observe que, olhando o PDF da distribuição de Cauchy, suporíamos que fosse , mas pelas experiências que podemos ver, ele não existe. Esse é o ponto da demonstração.0

curve(dnorm, -8,8)
curve(dcauchy, -8,8)

enter image description here


4
Não acho que isso mostre que a distribuição de Cauchy não tenha significado. Você poderia obter resultados semelhantes se substituísse a distribuição Cauchy por uma distribuição normal por uma variação adequadamente grande.
mark999

good point @ mark999, editarei minha resposta para solucionar esse problema.
Haitao Du

É possível descobrir no PDF da distribuição Cauchy que isso não tem significado, provavelmente olhando para as caudas gordas?
precisa saber é o seguinte



2

dθ/2πθAS1length(A)/2πU(π,π)ππεπ+ε (=π+εmod2π)πU(π,π)ε/2π

Como a distribuição no círculo é simétrica rotacionalmente, não pode haver média, mediana ou modo no círculo. Da mesma forma, momentos mais altos, como variação, não podem fazer sentido. Essa distribuição surge naturalmente em muitos contextos. Por exemplo, meu projeto atual envolve imagens microscópicas de tecido cancerígeno. Os muitos objetos na imagem não são simétricos e uma "direção" pode ser atribuída a cada um. A hipótese nula óbvia é que essas direções são distribuídas uniformemente.

S1p=(0,1)S1xθpxx=tan(θ/2)dθ/2=dx/(1+x2)dθπ(1+x2)

S1{p}ppS1pp=(0,1)0R


2
A distribuição de Cauchy tem mediana e modo.
jkabrg 9/09/16

bem certo. Eu fiquei um pouco empolgado. Mas o argumento para a inexistência da média está correto. Editarei minha resposta.
David Epstein

Por que "não pode haver um meio porque não há um no círculo"? Falta muito em seu argumento. Estou assumindo o que você quer dizer com distribuição uniforme "no círculo" é queθvocê(-π,π) e X=bronzeado(θ/2), mas então E[θ]=0 0então eu não entendo do que você está falando.
jkabrg 10/09/16

@jkabrg: Espero que as novas edições tornar isso mais compreensível
David Epstein
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.