Derivação da transformação de normalização para GLMs


15

Como está a transformação de normalização A()=duV1/3(μ) normalização para a família exponencial derivado?

Mais especificamente : tentei seguir o esboço de expansão de Taylor na página 3, slide 1 aqui, mas tenho várias perguntas. Com X de uma família exponencial, transformação h(X) e κi indicando o ith cumulante, os slides argumentam que:

κ3(h(X¯))h(μ)3κ3(X¯)N2+3h(μ)2h(μ)σ4N+O(N3),
e resta simplesmente encontrar h(X) modo que o acima seja avaliado como 0.
  1. Minha primeira pergunta é sobre aritmética: minha expansão de Taylor tem coeficientes diferentes e não posso justificar que eles tenham descartado muitos dos termos.

    Since h(x)h(μ)+h(μ)(xμ)+h(x)2(xμ)2, we have:h(X¯)h(u)h(u))(X¯μ)+h(x)2(X¯μ)2E(h(X¯)h(u))3h(μ)3E(X¯μ)3+32h(μ)2h(μ)E(X¯μ)4+34h(μ)h(μ)2E(X¯μ)5+18h(μ)3E(X¯μ)6.

    Eu posso chegar a algo semelhante substituindo os momentos centrais pelos seus equivalentes cumulativos, mas ainda assim não corresponde.

  2. A segunda pergunta: por que a análise começa com X¯ vez de X , a quantidade que realmente importa?


você parece ter u várias vezes em que você quer dizer μ
Glen_b -Reinstala Monica 19/16

Respostas:


2

Os slides aos quais você vincula são um pouco confusos, deixando de fora etapas e digitando alguns erros, mas eles estão corretos. Ajudará a responder a pergunta 2 primeiro, depois 1 e, finalmente, derivar a transformação simétrica .A(u)=u1[V(θ)]1/3dθ

Pergunta 2. Estamos analisando como a média de uma amostra do tamanho das variáveis ​​aleatórias iid . Essa é uma quantidade importante, porque a amostragem da mesma distribuição e a média ocorrem o tempo todo na ciência. Queremos saber o quão perto está da verdadeira média . O Teorema do Limite Central diz que convergirá para como mas gostaríamos de saber a variação e assimetria de .X¯NX1,...,XNX¯μμNX¯

Pergunta 1. Sua aproximação da série Taylor não está incorreta, mas precisamos ter cuidado com o controle de vs. e potências de para chegar à mesma conclusão que os slides. Começaremos com as definições de e momentos centrais de e derivaremos a fórmula para :X¯XiNX¯Xiκ3(h(X¯))

X¯=1Ni=1NXi

E[Xi]=μ

V(Xi)=E[(Xiμ)2]=σ2

κ3(Xi)=E[(Xiμ)3]

Agora, os momentos centrais de :X¯

E[X¯]=1Ni=1NE[Xi]=1N(Nμ)=μ

V(X¯)=E[(X¯μ)2]=E[((1Ni=1NXi)μ)2]=E[(1Ni=1N(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2

A última etapa segue desde que e . Pode não ter sido a derivação mais fácil de , mas é o mesmo processo que precisamos fazer para encontrar e , onde dividimos um produto de uma soma e contamos o número de termos com potências de variáveis ​​diferentes. No caso acima, havia termos que tinham a forma e termos da forma .E[Xiμ]=0E[(Xiμ)2]=σ2V(X¯)κ3(X¯)κ3(h(X¯))N(Xiμ)2N(N1)(Xiμ)(Xjμ)

κ3(X¯)=E[(X¯μ)3)]=E[((1Ni=1NXi)μ)3]=E[(1Ni=1N(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2

Em seguida, expandiremos em uma série de Taylor como você tem:h(X¯)

h(X¯)=h(μ)+h(μ)(X¯μ)+12h(μ)(X¯μ)2+13h(μ)(X¯μ)3+...

E[h(X¯)]=h(μ)+h(μ)E[X¯μ]+12h(μ)E[(X¯μ)2]+13h(μ)E[(X¯μ)3]+...=h(μ)+12h(μ)σ2N+13h(μ)κ3(Xi)N2+...

Com um pouco mais de esforço, você pode provar que os outros termos são . Finalmente, uma vez que , (que não é o mesmo que ), fazemos novamente um cálculo semelhante:O(N3)κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]E[(h(X¯)h(μ))3]

κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]=E[(h(μ)+h(μ)(X¯μ)+12h(μ)(X¯μ)2+O((X¯μ)3)h(μ)12h(μ)σ2NO(N2))3]

Estamos interessados ​​apenas nos termos que resultam na ordem e, com trabalho extra, você pode mostrar que não precisa dos termos " "ou" "antes de tomar o terceiro poder, pois eles resultarão apenas em termos da ordem . Então, simplificando, obtemosO(N2)O((X¯μ)3)O(N2)O(N3)

κ3(h(X¯))=E[(h(μ)(X¯μ)+12h(μ)(X¯μ)212h(μ)σ2N))3]=E[h(μ)3(X¯μ)3+18h(μ)3(X¯μ)618h(μ)3σ6N3+32h(μ)2h(μ)(X¯μ)4+34h(μ)h(μ)(X¯μ)532h(μ)2h(μ)(X¯μ)2σ2N+O(N3)]

Deixei de lado alguns termos que obviamente eram neste produto. Você terá que se convencer de que os termos e são também. Contudo,O(N3)E[(X¯μ)5]E[(X¯μ)6]O(N3)

E[(X¯μ)4]=E[1N4(i=1N(X¯μ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)

Distribuindo a expectativa em nossa equação para , temosκ3(h(X¯))

κ3(h(X¯))=h(μ)3E[(X¯μ)3]+32h(μ)2h(μ)E[(X¯μ)4]32h(μ)2h(μ)E[(X¯μ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h(μ)σ4N232h(μ)2h(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2+O(N3)

Isso conclui a derivação de . Agora, finalmente, derivaremos a transformação simétrica .κ3(h(X¯))A(u)=u1[V(θ)]1/3dθ

Para essa transformação, é importante que seja de uma distribuição familiar exponencial e, em particular, uma família exponencial natural (ou foi transformada nessa distribuição), da formaXifXi(x;θ)=h(x)exp(θxb(θ))

Nesse caso, os cumulantes da distribuição são dados por . Então , e . Podemos escrever o parâmetro como uma função de apenas tomando o inverso de , escrevendo . Entãoκk=b(k)(θ)μ=b(θ)σ2=V(θ)=b(θ)κ3=b(θ)θμbθ(μ)=(b)1(μ)

θ(μ)=1b((b)1(μ))=1b(θ))=1σ2

Em seguida, podemos escrever a variação como uma função de , e chamar esta função :μV¯

V¯(μ)=V(θ(μ))=b(θ(μ))

Então

ddμV¯(μ)=V(θ(μ))θ(μ)=b(θ)1σ2=κ3σ2

Então, como uma função de , .μκ3(μ)=V¯(μ)V¯(μ)

Agora, para a transformação simétrica, queremos reduzir a assimetria de criando para que seja . Assim, nós queremosh(X¯)h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2=0h(X¯)O(N3)

h(μ)3κ3(Xi)+3h(μ)2h(μ)σ4=0

Substituindo nossas expressões por e como funções de , temos:σ2κ3μ

h(μ)3V¯(μ)V¯(μ)+3h(μ)2h(μ)V¯(μ)2=0

Então , levando a .h(μ)3V¯(μ)+3h(μ)2h(μ)V¯(μ)=0ddμ(h(μ)3V¯(μ))=0

Uma solução para esta equação diferencial é:

h(μ)3V¯(μ)=1 ,

h(μ)=1[V¯(μ)]1/3

Portanto, , para qualquer constante, . Isso nos dá a transformação simétrica , em que é a variação como uma função da média em uma família exponencial natural.h(μ)=cμ1[V¯(θ)]1/3dθcA(u)=u1[V(θ)]1/3dθV


1

1.Por que não consigo obter o mesmo resultado aproximando-me em termos de momentos não centrais e depois calcule os momentos centrais usando os momentos não centrais aproximados?EX¯kE(X¯EX¯)k

Porque você altera a derivação arbitrariamente e descarta o termo de resíduo que é importante. Se você não conhece a grande notação O e os resultados relevantes, uma boa referência é [Casella & Lehmann].

h(X¯)h(u)h(u)(X¯μ)+h(x)2(X¯μ)2+O[(X¯μ)3]

E[h(X¯)h(u)]h(u)E(X¯μ)+h(x)2E(X¯μ)2+(?)

Mas mesmo que você não descarte o resíduo argumentando que está sempre executando (o que não é legal ...), a seguinte etapa: está dizendo queN

\E(h(X¯)h(u))3h(μ)3\E(X¯μ)3+32h(μ)2h(μ)\E(X¯μ)4+34h(μ)h(μ)2\E(X¯μ)5+18h(μ)3\E(X¯μ)6.(1)
[h(x)h(x0)]3dx=[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3dx=(1)

se isso ainda não estiver claro, podemos ver a álgebra de expandir o integrando como

[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3(2)

Sendo , ,A=h(x0)(xx0)B=12h(x0)(xx0)2C=O((xx0)3) (2)=[A+B+C]3 [A3+3A2B+3AB2+B3]=[A+B]3=(1)

Seu erro é omitir o resíduo antes da expansão, que é um erro "clássico" na notação O grande e mais tarde se tornou uma crítica ao uso da notação O grande.

2.Por que a análise começa com vez de , a quantidade que realmente importa?X¯X

Porque queremos basear nossa análise nas estatísticas suficientes do modelo exponencial que estamos introduzindo. Se você tiver uma amostra do tamanho 1, não haverá diferença se analisará com OU .X¯=1ni=1nXiX1

Esta é uma boa lição na grande notação O, embora não seja relevante para o GLM ...

Referência [Casella & Lehmann] Lehmann, Erich Leo e George Casella. Teoria da estimativa pontual. Springer Science & Business Media, 2006.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.