A partir da função densidade de distribuição, podemos identificar uma média (= 0) para a distribuição Cauchy, como mostra o gráfico abaixo. Mas por que dizemos que a distribuição Cauchy não tem significado?
A partir da função densidade de distribuição, podemos identificar uma média (= 0) para a distribuição Cauchy, como mostra o gráfico abaixo. Mas por que dizemos que a distribuição Cauchy não tem significado?
Respostas:
Você pode verificar mecanicamente se o valor esperado não existe, mas isso deve ser fisicamente intuitivo, pelo menos se você aceitar o princípio de Huygens e a Lei dos Grandes Números . A conclusão da Lei dos Grandes Números falha na distribuição de Cauchy, por isso não pode ter um significado. Se você calcular a média de variáveis aleatórias independentes de Cauchy, o resultado não converge para como com probabilidade . Permanece uma distribuição Cauchy do mesmo tamanho. Isso é importante na óptica.0 n → ∞ 1
A distribuição de Cauchy é a intensidade normalizada da luz em uma linha de uma fonte pontual. O princípio de Huygens diz que você pode determinar a intensidade assumindo que a luz seja reemitida de qualquer linha entre a fonte e o alvo. Portanto, a intensidade da luz em uma linha a metros de distância pode ser determinada assumindo que a luz atinja uma linha a metro de distância e seja reemitida em qualquer ângulo à frente. A intensidade da luz em uma linha a metros de distância pode ser expressa como a convolução vezes da distribuição de luz em uma linha a metro de distância. Ou seja, a soma de distribuições independentes de Cauchy é uma distribuição de Cauchy escalada por um fator de .1 n n 1 n n
Se a distribuição Cauchy teve uma média, em seguida, os percentil do convolução fold dividido por teria que convergem para pela Lei dos Grandes Números. Em vez disso, permanece constante. Se você marcar o percentil em uma linha (transparente) a metro, metros, etc., esses pontos formarão uma linha reta, a graus. Eles não dobram em direção a .n n 0 25 1 2 45 0
Isso informa sobre a distribuição de Cauchy em particular, mas você deve conhecer o teste integral, porque existem outras distribuições sem meios que não têm uma interpretação física clara.
Resposta adicionada em resposta ao comentário do @ whuber na resposta de Michael Chernicks (e reescrita completamente para remover o erro apontado pelo whuber.)
Diz-se que o valor da integral para o valor esperado de uma variável aleatória Cauchy é indefinido porque o valor pode ser "feito" para ser o que se quiser. A integral (interpretada no sentido de uma integral de Riemann) é o que é comumente chamado de uma integral imprópria e seu valor deve ser calculado como um valor limite: ou
O valor principal de Cauchy é obtido como um único limite: vez do limite duplo acima. O valor principal da integral expectativa é facilmente visto como sendo uma vez que o limitand tem valor para todo . Mas isso não pode ser usado para dizer que a média de uma variável aleatória Cauchy é . Ou seja, a média é definida como o valor da integral no sentido usual e não no sentido do valor principal.0 0 T 0
Para , considere a integral que se aproxima de um valor limitador de como . Quando , obtemos o valor principal discutido acima. Assim, não podemos atribuir um significado inequívoco à expressão∫ α T - T xln(α)
Se alguém estiver usando a abordagem teórica da medida da probabilidade e a integral do valor esperado for definida no sentido de uma integral de Lebesgue, a questão será mais simples. existe apenas quando é finito e, portanto, é indefinido para uma variável aleatória Cauchy uma vez que não é finito.∫ | g | E [ X ] X E [ | X | ]
Embora as respostas acima sejam explicações válidas de por que a distribuição de Cauchy não tem expectativa, acho que a razão de duas variáveis normais normais é Cauchy igualmente esclarecedora: de fato, have e a segunda expectativa é .
O Cauchy não tem média porque o ponto que você seleciona (0) não é médio. É uma mediana e um modo . A média para uma distribuição absolutamente contínua é definida como que é a função de densidade e a integral é assumida pelo domínio de (que é a no caso de Cauchy). Para a densidade de Cauchy, essa integral simplesmente não é finita (a metade de a é e a metade de a é ).f f - ∞ ∞ - ∞ 0 - ∞ 0 ∞ ∞
A distribuição de Cauchy é mais bem pensada como a distribuição uniforme em um círculo unitário; portanto, seria surpreendente se a média fizesse sentido. Suponha que seja algum tipo de "função de média". Ou seja, suponha que, para cada subconjunto finito do círculo unitário, fosse um ponto do círculo unitário. Claramente, tem que ser "não natural". Mais precisamente, não pode ser equivalente em relação às rotações. Para obter a distribuição de Cauchy em sua forma mais usual, mas menos reveladora, projete o círculo unitário no eixo x de (0,1) e use essa projeção para transferir a distribuição uniforme no círculo para o eixo x.X f ( X ) f f
Para entender por que a média não existe, pense em x como uma função no círculo unitário. É muito fácil encontrar um número infinito de arcos disjuntos no círculo unitário, de modo que, se um dos arcos tiver comprimento d, x> 1 / 4d nesse arco. Portanto, cada um desses arcos separados contribui com mais de 1/4 da média e a contribuição total desses arcos é infinita. Podemos fazer a mesma coisa novamente, mas com x <-1 / 4d, com uma contribuição total menos o infinito. Esses intervalos podem ser exibidos com um diagrama, mas é possível fazer diagramas para validação cruzada?
O valor médio ou esperado de alguma variável aleatória é uma integral de Lebesgue definida sobre alguma medida de probabilidade : P E X = ∫ X d P
A inexistência da média da variável aleatória Cauchy significa apenas que a integral de Cauchy rv não existe. Isso ocorre porque as caudas da distribuição de Cauchy são caudas pesadas (compare com as caudas da distribuição normal). No entanto, a inexistência do valor esperado não proíbe a existência de outras funções de uma variável aleatória de Cauchy.
Aqui está mais uma explicação visual. (Para aqueles de nós que são desafiados pela matemática.). Pegue um gerador de números aleatórios distribuído com cuidado e tente calcular a média dos valores resultantes. Aqui está uma boa página sobre uma função para isso. https://math.stackexchange.com/questions/484395/how-to-generate-a-cauchy-random-variable Você descobrirá que a "pontada" dos valores aleatórios faz com que ele fique maior à medida que avança, em vez de menor . Portanto, não tem significado.
Apenas para acrescentar às excelentes respostas, farei alguns comentários sobre por que a não convergência da integral é relevante para a prática estatística. Como outros mencionaram, se permitirmos que o valor principal seja "médio", o slln não será mais válido! Além disso, pense nas implicações do fato de que, na prática, todos os modelos são aproximações. Especificamente, a distribuição de Cauchy é um modelo para uma variável aleatória ilimitada. Na prática, variáveis aleatórias são limitadas, mas os limites são frequentemente vagos e incertos. Usar modelos ilimitados é uma maneira de aliviar isso, pois torna desnecessária a introdução de limites inseguros (e muitas vezes não naturais) nos modelos. Mas, para que isso faça sentido, aspectos importantes do problema não devem ser afetados. Isso significa que, se introduzirmos limites, isso não deve alterar de maneira importante o modelo. Mas quando a integral não é convergente, isso não acontece! O modelo é instável, no sentido de que a expectativa do RV dependeria dos limites amplamente arbitrários. (Em aplicativos, não há necessariamente nenhum motivo para tornar os limites simétricos!)
Por esse motivo, é melhor dizer que a integral é divergente do que dizer que é "infinita", sendo a última próxima a implicar algum valor definido quando não existe! Uma discussão mais aprofundada está aqui .
Eu queria ser um pouco exigente por um segundo. O gráfico na parte superior está errado. O eixo x está em desvios padrão, algo que não existe para a distribuição de Cauchy. Estou sendo exigente porque uso a distribuição Cauchy todos os dias da minha vida em meu trabalho. Existe um caso prático em que a confusão pode causar um erro empírico. A distribuição t do aluno com 1 grau de liberdade é o padrão Cauchy. Geralmente, ele lista vários sigmas necessários para o significado. Esses sigmas NÃO são desvios padrão, são erros prováveis e mu é o modo.
Se você deseja fazer o gráfico acima corretamente, o eixo x são dados brutos ou se você deseja que eles tenham erros de tamanho equivalente, você deve fornecer a eles erros iguais prováveis. Um erro provável é o desvio padrão de 0,67 na distribuição normal. Nos dois casos, é o intervalo semi-interquartil.
Agora, como resposta à sua pergunta, tudo o que todos escreveram acima está correto e é a razão matemática para isso. No entanto, eu suspeito que você é um estudante e novo no tópico e, portanto, as soluções matemáticas contra-intuitivas para o visualmente óbvio podem não parecer verdadeiras.
Eu tenho duas amostras quase idênticas do mundo real, extraídas de uma distribuição de Cauchy, ambas têm o mesmo modo e o mesmo erro provável. Um tem uma média de 1,27 e um tem uma média de 1,33. Aquele com média de 1,27 tem um desvio padrão de 400, aquele com média de 1,33 tem um desvio padrão de 5,15. O erro provável para ambos é 0,32 e o modo é 1. Isso significa que, para dados simétricos, a média não está nos 50% centrais. É necessária apenas uma observação adicional para empurrar a média e / ou a variação fora da significância para qualquer teste. O motivo é que a média e a variação não são parâmetros e a média da amostra e a variação da amostra são elas próprias números aleatórios.
A resposta mais simples é que os parâmetros da distribuição de Cauchy não incluem uma média e, portanto, nenhuma variação sobre uma média.
É provável que, em sua pedagogia passada, a importância da média tenha sido porque ela geralmente é uma estatística suficiente. Nas estatísticas baseadas em frequência de longo prazo, a distribuição de Cauchy não possui estatística suficiente. É verdade que a mediana da amostra, para uma distribuição de Cauchy com suporte em todo o real, é uma estatística suficiente, mas isso porque a herda de ser uma estatística de ordem. É meio que coincidentemente suficiente, sem uma maneira fácil de pensar sobre isso. Agora, nas estatísticas bayesianas, existe uma estatística suficiente para os parâmetros da distribuição de Cauchy e, se você usar um uniforme anterior, também será imparcial. Trago isso à tona porque, se você precisar usá-los diariamente, você aprenderá sobre todas as formas de realizar estimativas sobre eles.
Não há estatísticas de pedidos válidas que possam ser usadas como estimadores de distribuições truncadas de Cauchy, que são as que você provavelmente encontrará no mundo real e, portanto, não há estatística suficiente nos métodos baseados em frequência para a maioria, mas não todas as aplicações do mundo real .
O que eu sugiro é se afastar do mau, mentalmente, como algo real. É uma ferramenta, como um martelo, que é amplamente útil e geralmente pode ser usada. Às vezes, essa ferramenta não funciona.
Uma nota matemática nas distribuições normal e Cauchy. Quando os dados são recebidos como uma série temporal, a distribuição normal ocorre apenas quando os erros convergem para zero quando t chega ao infinito. Quando os dados são recebidos como uma série temporal, a distribuição Cauchy acontece quando os erros divergem para o infinito. Um é devido a uma série convergente, o outro devido a uma série divergente. As distribuições de Cauchy nunca chegam a um ponto específico no limite; elas oscilam entre um ponto fixo e, portanto, cinquenta por cento do tempo estão de um lado e cinquenta por cento do outro. Não há reversão mediana.
Simplificando, a área sob a curva se aproxima do infinito à medida que você diminui o zoom. Se você experimentar uma região finita, poderá encontrar uma média para essa região. No entanto, não há meios para o infinito.