É possível que duas variáveis ​​aleatórias da mesma família de distribuição tenham a mesma expectativa e variância, mas diferentes momentos superiores?


12

Eu estava pensando no significado de família em escala de localização. Meu entendimento é que, para cada membro de uma família de escalas de localização com parâmetros localização , a distribuição de não depende de nenhum parâmetro e é a mesma para todos os pertencentes a essa família.a b Z = ( X - a ) / b XXabZ=(Xa)/bX

Portanto, minha pergunta é: você poderia fornecer um exemplo em que duas aleatórias da mesma família de distribuição são padronizadas, mas isso não resulta em uma variável aleatória com a mesma distribuição?

Digamos que e sejam da mesma família de distribuição (onde, com família, quero dizer, por exemplo, Normal ou Gamma e assim por diante ..). Definir:YXY

Z1=Xμσ

Z2=Yμσ

sabemos que e têm a mesma expectativa e variação, .Z 2 μ Z = 0 , σ 2 Z = 1Z1Z2μZ=0,σZ2=1

Mas eles podem ter diferentes momentos superiores?

Minha tentativa de responder a essa pergunta é que, se a distribuição de e depender de mais de 2 parâmetros, poderia ser. E estou pensando no generalizado que tem 3 parâmetros.YXYtstudent

Mas se o número de parâmetros é e e vêm da mesma família de distribuição com a mesma expectativa e variação, significa que e têm a mesma distribuição (momentos mais altos)?X Y Z 1 Z 22XYZ1Z2


4
Sim eles podem. Mas, você precisaria de pelo menos 3 parâmetros em uma distribuição generalizada.
22417 Carl

5
@Carl Um parâmetro será suficiente.
whuber

5
@Carl Não está claro o que você quer dizer com "mesma distribuição". Literalmente, isso se referiria a uma distribuição única, com uma lei e, portanto, uma expectativa única, variação única e momentos únicos (na medida em que são definidos). Se você quer dizer "mesma família de distribuição ", sua observação não tem sentido, porque a família é o que você definir.
whuber

3
@HardCore Como parece que você acha que sua pergunta foi respondida, consulte O que devo fazer quando alguém responder à minha pergunta?
Glen_b -Reinstala Monica

2
@Carl Também votei na sua resposta. O uso do OP parece apoiar a noção de como tendo a mesma distribuição padrão para todas as opções de na família. Vamos ver qual resposta o OP aceita (se o OP ler o comentário de Glen_b e agir sobre ele). XZ=(Xa)/bX
Dilip Sarwate

Respostas:


7

Aparentemente, existe alguma confusão sobre o que é uma família de distribuições e como contar parâmetros livres versus parâmetros livres mais fixos (atribuídos). Essas perguntas são um aparte que não tem relação com a intenção do OP e com essa resposta. Eu não uso a palavra família aqui porque é confusa. Por exemplo, uma família de acordo com uma fonte é o resultado da variação do parâmetro de forma. O @whuber afirma que uma "parametrização" de uma família é um mapa contínuo de um subconjunto de ℝ , com sua topologia usual, no espaço de distribuições, cuja imagem é essa família. n Usarei a forma da palavra que abrange o uso pretendido da palavra x 2 -2x+4 a 2 x 2 + a 1 x+ a 0 a 1 =0 a 2 =0identificação e contagem de famílias e parâmetros . Por exemplo, a fórmulatem a forma de uma fórmula quadrática, ou seja,e sea fórmula ainda está na forma quadrática. No entanto, quandoa fórmula é linear e o formulário não está mais completo o suficiente para conter um termo de forma quadrática. Aqueles que desejam usar a palavra família em um contexto estatístico adequado são incentivados a contribuir para essa pergunta em separado .x22x+4a2x2+a1x+a0a1=0a2=0

Vamos responder à pergunta "Eles podem ter diferentes momentos superiores?". Há muitos exemplos assim. Observamos de passagem que a pergunta parece ser sobre PDFs simétricos, que tendem a ter localização e escala no caso simples de dois parâmetros. A lógica: suponha que haja duas funções de densidade com formas diferentes com dois parâmetros idênticos (localização, escala). Depois, existe um parâmetro de forma que ajusta a forma ou as funções de densidade não têm parâmetro de forma comum e, portanto, são funções de densidade sem forma comum.

Aqui está um exemplo de como o parâmetro shape aparece nele. A função de densidade de erro generalizada e aqui , é uma resposta que parece ter uma curtose livremente selecionável.

insira a descrição da imagem aqui

Por Skbkekas - Trabalho próprio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=6057753

O PDF (função de densidade "probabilidade", AKA, observe que a palavra "probabilidade" é supérflua) é

β2αΓ(1β)e(|xμ|α)β

A média e a localização são , a escala é e é a forma. Observe que é mais fácil apresentar PDFs simétricos, porque esses PDFs geralmente têm localização e escala como os dois casos de parâmetro mais simples, enquanto PDFs assimétricos, como o PDF gama , tendem a ter forma e escala como seus parâmetros de caso mais simples. Continuando com a função de densidade de erro, a variação é , a assimetria é e a curtose éμαβα 2 Γ ( 3α2Γ(3β)Γ(1β)0 0Γ(5β)Γ(1β)Γ(3β)2-3. Portanto, se a variação como 1, atribuímos o valor de de enquanto varia , para que a curtose seja selecionável no intervalo de a .αα2=Γ(1β)Γ(3β)β>0 0-0,601114

Ou seja, se queremos variar momentos de ordem superior e se queremos manter uma média de zero e uma variação de 1, precisamos variar a forma. Isso implica três parâmetros, que em geral são 1) a média ou a medida apropriada da localização, 2) a escala para ajustar a variação ou outra medida da variabilidade e 3) a forma. É preciso pelo menos três parâmetros para fazê-lo.

Observe que, se fizermos as substituições , no PDF acima, obteremosβ=2α=2σ

e-(x-μ)22σ22πσ,

que é a função de densidade de uma distribuição normal. Assim, a função de densidade de erro generalizada é uma generalização da função de densidade da distribuição normal. Existem muitas maneiras de generalizar a função de densidade de uma distribuição normal. Outro exemplo, mas com a função de densidade da distribuição normal apenas como um valor limite, e não com valores de substituição intermediários, como a função de densidade de erro generalizada, é a função de densidade do Student . Usando a função density do Student , teríamos uma seleção de curtose bastante mais restrita, e é o parâmetro de forma, porque o segundo momento não existe para . Além disso, df-t-tdf2df<2na verdade não está limitado a valores inteiros positivos, é geralmente real 1 . O Student -t só se torna normal no limite como df , razão pela qual não o escolhi como exemplo. Não é um bom exemplo nem um contra-exemplo, e nisto discordo de @ Xi'an e @whuber.

Deixe-me explicar isso mais. Pode-se escolher duas das muitas funções arbitrárias de densidade de dois parâmetros para ter, por exemplo, uma média de zero e uma variação de um. No entanto, nem todos terão a mesma forma. A questão, no entanto, refere-se a funções de densidade do mesmo formulário, e não a diferentes formas. A alegação foi feita de que funções de densidade têm a mesma forma é uma atribuição arbitrária, pois isso é uma questão de definição, e na minha opinião difere. Não concordo que isso seja arbitrário, porque se pode fazer uma substituição para converter uma função de densidade em outra ou não se pode. No primeiro caso, as funções de densidade são semelhantes e, por substituição, podemos mostrar que as funções de densidade não são equivalentes, então essas funções de densidade são de forma diferente.

Assim, usando o exemplo da Student -t PDF, as escolhas são de considerar, quer que ele seja uma generalização de um PDF normal, caso em que um PDF normal tem uma forma admissível para um Student -t 's PDF, ou não, nesse caso, o PDF do aluno -t tem uma forma diferente do PDF normal e, portanto, é irrelevante para a pergunta .

Podemos discutir isso de várias maneiras. Minha opinião é que um PDF normal é uma forma sub-selecionados de um Student -t 's PDF, mas que um PDF normal não é uma sub-seleção de um PDF gamma mesmo que um valor limite de um PDF gamma pode ser mostrado para ser um PDF normal e, minha razão para isso é que, no caso normal / Student ' -t , o suporte é o mesmo, mas no caso normal / gama o suporte é infinito versus semi-infinito, que é a incompatibilidade necessária .


6
(-1) Como já foi afirmado em outros comentários, a questão é "o que significa uma família de distribuição?". Eu posso facilmente definir uma nova "família" de distribuições que são simplesmente redimensionadas distribuições t para ter média = 0, sd = 1, com um único parâmetro: df. Então o 1º e o 2º momentos são iguais para todos os df, mas para valores diferentes de df, eles têm diferentes momentos superiores.
Cliff AB

5
Hard Core, esse comentário é difícil de entender, uma vez que seu próprio título contém a palavra "família"! Além disso, se você negar que uma família é significativa, a questão não faz sentido. Esclareça editando sua pergunta para refletir suas intenções.
whuber

5
-1 porque você começa dizendo "A resposta é NÃO". e depois dê um exemplo que responda efetivamente Sim (outro exemplo é dado na resposta de kjetilbhalvorsen que você menciona favoravelmente). Isto não faz sentido para mim. Eu acho que a matemática aqui é clara para todos nós, então meu voto negativo é apenas pela falta de consistência na apresentação.
Ameba diz Reinstate Monica

3
Carl, existe uma grande inconsistência entre a pergunta e os comentários do Hard Core. A pergunta é explícita: "forneça um exemplo em que duas [variáveis] aleatórias da mesma família de distribuição são padronizadas, mas isso não resulta em ... Variáveis ​​Aleatórias [s] com a mesma distribuição". Obviamente, algum significado de "família" é pretendido. O significado usual é claro, apesar de existirem várias variantes técnicas, e a resposta correta (facilmente demonstrável) é "sim, existem muitos exemplos".
whuber

4
Obrigado. Claramente, você tem uma boa noção do que está escrevendo, mas, infelizmente, sua postagem propaga um pouco de confusão sobre o significado dos "distribuição", "forma", "forma" e "parâmetro". Como um exemplo das sutilezas, considere uma família de distribuições criada por qualquer lei de distribuição que tenha um terceiro momento central diferente de zero. A família é indexada por dois números reais ( μ , σ 0 ) e consiste em todas as leis x F ( σ x + μ ) . É uma família em escala de localização, mas as formas dessas leis diferem dependendo do sinal de σ .F(μ,σ0 0)xF(σx+μ)σ
whuber

17

Se você deseja um exemplo que é uma "família de distribuição parametrizada oficialmente nomeada, pode consultar a distribuição gama generalizada, https://en.wikipedia.org/wiki/Generalized_gamma_distribution . Esta família de distribuição possui três parâmetros, para que você possa corrigir a média e variância e ainda tem liberdade para variar momentos mais altos.Na página wiki, a álgebra não parece convidativa, eu prefiro fazê-lo numericamente.Para aplicativos estatísticos, procure neste site gamlss, que é uma extensão do gam (aditivo generalizado modelos, por si só uma generalização das glm's) que possuem parâmetros para "localização, escala e forma".

Outro exemplo são as distribuições t , estendidas para serem uma família em escala de local. Em seguida, o terceiro parâmetro será o grau de liberdade, que irá desconfiar a forma de um local e escala fixos.


1
Embora a distribuição de erro generalizada possa ter sido uma escolha melhor.
22417 Carl

2
Muito obrigado pela sua resposta!! Eu escolhi o de Carl porque era mais detalhado, mas isso também estava bom .. muito obrigado !!!
gioxc88

14

Existe um número infinito de distribuições com zero médio e variância 1, portanto, pegue distribuído de uma dessas distribuições, digamos N ( 0 , 1 ) e ϵ 2 de outra dessas distribuições, digamos t de Student com 54 graus de liberdade redimensionada por ϵ1N(0 0,1)ϵ2t modo que sua variação é uma, então X=μ+σϵ113 aproveite as propriedades que você mencionou. O "número" de parâmetros é irrelevante para a propriedade.

X=μ+σϵ1eY=μ+σϵ2

Obviamente, se você definir outras regras para a definição dessa família, como afirmar, por exemplo, que existe uma densidade fixa modo que a densidade de X seja 1fXvocê pode acabar com uma única distribuição possível.

1σdf({x-μ}/σ)

obrigado pela resposta, mas acho que não foi isso que pedi #
gioxc88

6
Eu acho que sim, porque se a família de distribuições é definida pela reunião de ambas as distribuições dos e Y , então você tem uma contradição com a propriedade. Uma "família" de distribuições é uma noção bastante vaga. XY
Xian

sim, de fato, é bastante vago, mas se você leu minha pergunta, escrevi que, neste contexto, com família, quero dizer, por exemplo, tanto Normal quanto Gamma e assim por diante. Você fez um exemplo com um aluno normal e um aluno t
gioxc88

4
Hard Core, você parece confundir o nome de uma família com seu conceito . Essa resposta é ótima e ilustra bem o conceito. Sua pergunta não pede que a solução seja uma família em escala de local. Se você precisar que ela seja uma, sempre pode levar essa resposta - ou qualquer outra resposta - e prolongá-la para uma família em escala de local, permitindo traduções e redimensionamentos arbitrários. O argumento de Xi'an sobre o número de parâmetros ainda é válido.
whuber

@ Whuber Eu acho que é confuso como resposta. O t-Student por si só seria uma resposta melhor, em vez de usar a resposta extrema de e não especificá-la. Na verdade, é d f que é o terceiro parâmetro. df=3,df
Carl

6

Eu acho que você está perguntando se duas variáveis ​​aleatórias provenientes da mesma família de escala de localização podem ter a mesma média e variância, mas pelo menos um momento superior diferente. A resposta é não.

Prova : Seja e X 2 duas dessas variáveis ​​aleatórias. Como X 1 e X 2 estão na mesma família de escala de localização, existe uma variável aleatória X e números reais a 1 > 0 , a 2 > 0 , b 1 , b 2, de modo que X 1 d = a 1 X + b 1 e X 2 d = a 2 XX1X2X1X2Xuma1>0 0,uma2>0 0,b1,b2X1=duma1X+b1 . Como X 1 e X 2 têm a mesma média e variância, temos:X2=duma2X+b2X1X2

  1. .E[X1]=E[X2]uma1E[X]+b1=uma2E[X]+b2
  2. .Var[X1]=Var[X2]uma12Var[X]=uma22Var[X]

Se , então X 1 = E [ X 1 ] = X 2 = E [ X 2 ] com probabilidade 1 e, portanto, os momentos mais altos de X 1 e X 2 são todos iguais. Portanto, podemos assumir que Var [ X ] 0 . Usando isso, (2) implica que | a 1 | = | a 2 | . Desde aVar[X]=0 0X1=E[X1]=X2=E[X2]1X1X2Var[X]0 0|uma1|=|uma2| e um 2 > 0 , temos, de facto, que a 1 = a 2 . Por sua vez, (1) acima agora implica que b 1 = b 2 . Portanto, temos que: E [ X k 1 ] = E [ ( a 1 X + b 1 ) k ] = E [ ( a 2 X + b 2 ) k ] =uma1>0 0uma2>0 0uma1=uma2b1=b2 para qualquer k , ou seja, todos os momentos de X 1 e X 2 são todas iguais.

E[X1k]=E[(uma1X+b1)k]=E[(uma2X+b2)k]=E[X2k],
kX1X2

1
(+1) Não consigo encontrar falhas nesta resposta. Aparentemente, alguém o faz e também encontra falhas no meu. Eu não entendo esse comportamento inexplicável.
24417 Carl

5
@ Carl Esta resposta está incorreta - é por isso que está sendo rebaixado. Xi'an já forneceu um contra-exemplo.
whuber

1
@whuber Por favor, veja meus comentários na resposta de Xi'an. Não concordo com ele, mas não reduzi a votação porque ele e você têm direito à sua opinião, mesmo que eu considere incorreto.
25417 Carl

8
@Carl Depois de reler esta resposta, preciso retirar minha avaliação original: esta resposta está correta (e +1 para isso) e está correta porque explica claramente como está interpretando a pergunta original. (Especificamente, há um conceito comum ainda estreita de uma "família localização escala" como consistindo de apenas uma única distribuição padrão, juntamente com todas as suas traduz e rescalings positivos.) Creio que a pergunta original tinha a intenção de pedir algo um pouco diferente; a base dessa crença é a referência a mais de dois parâmetros no post.
whuber

2
Sinto muito por não ter sido muito claro e agradeço o tempo que dedicou a analisar isso, mas não foi isso que pedi.
gioxc88

1

Como a pergunta pode ser interpretada de várias maneiras, dividirei esta resposta em duas partes.

  • A: famílias de distribuição.
  • B: famílias de distribuição em escala de localização.

O problema com o caso A pode ser facilmente respondido / demonstrado por muitas famílias com um parâmetro de forma.

RR>0 0

R: Duas distribuições diferentes da mesma família de distribuição de 2 parâmetros podem ter a mesma média e variação?

A resposta é sim e já pode ser mostrada usando um dos exemplos explicitamente mencionados: a distribuição Gamma normalizada

Família de distribuições gama normalizadas

Z=X-μσXZ

FZ(z;k)={0 0E sez<-k1Γ(k)γ(k,zk+k)E sez-k

γ

Z1Z2μ=0 0σ=1k

B: Duas distribuições diferentes da mesma família de distribuição em escala de localização com 2 parâmetros podem ter a mesma média e variação?

Acredito que a resposta é não, se considerarmos apenas famílias tranquilas (tranqüila: uma pequena alteração nos parâmetros resultará em uma pequena alteração na distribuição / função / curva). Mas essa resposta não é tão trivial e, quando usamos famílias mais genéricas (não suaves), podemos dizer que sim , embora essas famílias existam apenas na teoria e não tenham relevância prática.

Gerando uma família em escala de local a partir de uma única distribuição por conversão e dimensionamento

f(x)

f(x;μ,σ)=1σf(x-μσ)

Para uma família em escala de local que pode ser gerada dessa maneira, temos:

  • f(x;μ1,σ1)f(x;μ2,σ2)f(x;μ1,σ1)=f(x;μ2,σ2)

Para todas as duas famílias de parâmetros de escala de localização, suas distribuições de membros podem ser geradas a partir de uma única distribuição de membros por conversão e dimensionamento?

θ1θ2μσ

Para duas famílias de escala de localização de dois parâmetros em particular, como a família de distribuições normais, não é muito difícil mostrar que elas podem ser geradas de acordo com o processo acima (dimensionamento e tradução de um único membro de exemplo).

Pode-se perguntar se é possível que cada família de dois parâmetros de escala de localização seja gerada a partir de um único membro por conversão e dimensionamento. Ou uma declaração conflitante: "Uma família de dois parâmetros em escala de localização pode conter duas distribuições de membros diferentes com a mesma média e variação?", Para as quais seria necessário que a família fosse uma união de várias subfamílias geradas por tradução e escala.

Caso 1: Família de distribuições t generalizadas de alunos, parametrizadas por duas variáveis

R2R3θ1θ2

Vamos usar a distribuição t generalizada de Student (três parâmetros):

f(x;ν,μ,σ)=Γ(ν+12)Γ(ν2)πνσ(1+1ν(x-μσ)2)-ν+12

μ=bronzeado(θ1)σ=θ2ν=0,5+θ1/π

então nós temos

f(x;θ1,θ2)=Γ(0,5+θ1/π+12)Γ(0,5+θ1/π2)π0,5+θ1/πθ2(1+10,5+θ1/π(x-bronzeado(θ1)θ2)2)-0,5+θ1/π+12

que pode ser considerada uma família de escala de localização de dois parâmetros (embora não seja muito útil) que não pode ser gerada pela tradução e dimensionamento de apenas um único membro.

Caso 2: Famílias de escala de localização geradas pelo dimensionamento negativo de uma única distribuição com inclinação diferente de zero

xf(x/b+uma)b

Famílias tranquilas

f:R2R3funções contínuas que executariam o trabalho, como curvas Peano).

θ1θ2θ1θ2μσ

θ1=fθ1(μ,σ)θ2=fθ2(μ,σ)

fθ1(μ,σ)μσ

θ1θ1f(x;θ1)x


1
xf,b1fθR2R3."O problema com esses" mapas "é que eles não podem ser contínuos e não terão significado estatístico.
whuber

2
R2R3θθ

1
O segundo marcador está incorreto: não segue nenhuma das suposições nem faz parte da definição de família de escala de localização.
whuber

1
θiθixF(bx+a)F(a,b)R2b>0 0F

1
μσθ1θ2μσ
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.