Um problema na estimativa de parâmetros


13

Seja e quatro variáveis ​​aleatórias, tais que , em que são parâmetros desconhecidos. Suponha também que ,Então qual é a verdade?Y1,Y2,Y3Y4E(Y1)=θ1θ3;  E(Y2)=θ1+θ2θ3;  E(Y3)=θ1θ3;  E(Y4)=θ1θ2θ3θ1,θ2,θ3Var(Yi)=σ2i=1,2,3,4.

A. são estimados.θ1,θ2,θ3

B. é .θ1+θ3

C. é e é a melhor estimativa imparcial linear de .θ1θ312(Y1+Y3)θ1θ3

D. é .θ2

A resposta é dada em C, o que me parece estranho (porque eu tenho D).

Por que eu peguei D? Desde, .E(Y2Y4)=2θ2

Por que não entendo que C possa ser uma resposta? Ok, eu posso ver, é um estimador imparcial de , e sua variação é menor que .Y1+Y2+Y3+Y44θ1θ3Y1+Y32

Por favor, diga-me onde estou fazendo errado.

Também postado aqui: /math/2568894/a-problem-on-estimability-of-parameters


1
Coloque uma self-studyetiqueta ou alguém irá aparecer e fechar sua pergunta.
22417 Carl

@Carl está feito, mas por quê?
Stat_prob_001

São as regras para o site, não minhas regras, regras do site.
22417 Carl

É Y1Y3 ?
22417 Carl

1
@Carl você pode pensar desta maneira: onde ϵ 1 é um rv com média 0 e variância σ 2 . E, Y 3 = θ 1 - θ 3 + ϵ 3 onde ϵ 3 é um rv com média 0 e variância σ 2Y1=θ1θ3+ϵ1ϵ10σ2Y3=θ1θ3+ϵ3ϵ30σ2
Stat_prob_001

Respostas:


8

Esta resposta enfatiza a verificação da estimabilidade. A propriedade de variação mínima é da minha consideração secundária.

Para começar, resuma as informações em termos de forma matricial de um modelo linear da seguinte maneira: ondeE(ε)=0,Var(ε)=σ2I(para discutir estimabilidade, a suposição de esferidade não é necessária. Mas, para discutir a propriedade de Gauss-Markov, precisamos assumir a esferidade deε).

(1)Y:=[Y1Y2Y3Y4]=[101111101111][θ1θ2θ3]+[ε1ε2ε3ε4]:=Xβ+ε,
E(ε)=0,Var(ε)=σ2Iε

Se a matriz de design é de posto cheio, então o parâmetro original β admite uma única mínimos quadrados estimar β = ( X ' x ) - 1 X ' Y . Por conseguinte, qualquer parâmetro φ , definida como uma função linear φ ( β ) de β é calculável no sentido de que pode ser claramente avaliado por dados através dos mínimos quadrados estimar β como φ = p ' β .Xββ^=(XX)1XYϕϕ(β)ββ^ϕ^=pβ^

A sutileza surge quando não está na classificação completa. Para ter uma discussão completa, fixamos algumas notações e termos primeiro (eu sigo a convenção de A abordagem sem coordenadas para modelos lineares , Seção 4.8. Alguns dos termos parecem desnecessariamente técnicos). Além disso, a discussão se aplica ao modelo linear geral Y = X β + ε com X R n × k e β R k .XY=Xβ+εXRn×kβRk

  1. Uma variedade de regressão é a coleção de vetores médios, pois varia sobre R k : M = { X β : β R k } .βRk
    M={Xβ:βRk}.
  2. Um funcional paramétrico é um funcional linear de β , ϕ ( β ) = p β = p 1 β 1 + + p k β k .ϕ=ϕ(β)β
    ϕ(β)=pβ=p1β1++pkβk.

Como mencionado acima, quando a , nem toda função paramétrica ϕ ( β ) é estimada. Mas, espere, qual é a definição do termo estimada tecnicamente? Parece difícil dar uma definição clara sem incomodar um pouco de álgebra linear. Uma definição, que eu acho que é a mais intuitiva, é a seguinte (da mesma referência mencionada):rank(X)<kϕ(β)

Definição 1. Um funcional paramétrico é estimado se for determinado exclusivamente por X β no sentido de que ϕ ( β 1 ) = ϕ ( β 2 ) sempre que β 1 , β 2R k satisfazem X β 1 = X β 2 .ϕ(β)Xβϕ(β1)=ϕ(β2)β1,β2RkXβ1=Xβ2

Interpretação. A definição acima estipula que o mapeamento do coletor de regressão para o espaço de parâmetro de ϕ deve ser um para um, o que é garantido quando a classificação ( X ) = k (ou seja, quando o próprio X é um a um). Quando rank ( X ) < k , sabemos que existem β 1β 2 tal que X β 1 = X β 2Mϕrank(X)=kXrank(X)<kβ1β2Xβ1=Xβ2. A definição estimada acima, com efeito, descarta os funcionais paramétricos com deficiência estrutural que resultam em valores diferentes, mesmo com o mesmo valor em , que não fazem sentido naturalmente. Por outro lado, uma função paramétrica estimada ϕ ( ) permite que o caso ϕ ( β 1 ) = ϕ ( β 2 ) com β 1β 2 , desde que a condição X β 1 = X β 2 seja cumprida.Mϕ()ϕ(β1)=ϕ(β2)β1β2Xβ1=Xβ2

Existem outras condições equivalentes para verificar a estimabilidade de uma função paramétrica dada na mesma referência, Proposição 8.4.

Após uma introdução detalhada, vamos voltar à sua pergunta.

A. si é não calculável que a razão para que posto ( X ) < 3 , o que implica X β 1 = X β 2 com β 1β 2 . Embora a definição acima seja dada para funcionais escalares, ela é facilmente generalizada para funcionais com valor vetorial.βrank(X)<3Xβ1=Xβ2β1β2

B. não é calculável. A saber, considere β 1 = ( 0 , 1 , 0 ) e β 2 = ( 1 , 1 , 1 ) , que fornece X β 1 = X β 2 mas ϕ 1ϕ1(β)=θ1+θ3=(1,0,1)ββ1=(0,1,0)β2=(1,1,1)Xβ1=Xβ2 .ϕ1(β1)=0+0=0ϕ1(β2)=1+1=2

C. é calculável. Como X β 1 = X β 2 implica trivialmente θ ( 1 ) 1 - θ ( 1 ) 3 = θ ( 2 ) 1 - θ ( 2 ) 3 , ou seja, ϕϕ2(β)=θ1θ3=(1,0,1)βXβ1=Xβ2θ1(1)θ3(1)=θ1(2)θ3(2) .ϕ2(β1)=ϕ2(β2)

D. é também calculável . A derivação de X p 1 = X β 2 para φ 3 ( β 1 ) = φ 3 ( β 2 ) também é trivial.ϕ3(β)=θ2=(0,1,0)βXβ1=Xβ2ϕ3(β1)=ϕ3(β2)

Depois que a estimabilidade é verificada, existe um teorema (Proposição 8.16, a mesma referência) reivindica a propriedade Gauss-Markov de . Com base nesse teorema, a segunda parte da opção C está incorreta. A melhor estimativa imparcial linear é ˉ Y = ( Y 1 + Y 2 + Y 3 + Y 4 ) / 4 , pelo teorema abaixo.ϕ(β)Y¯=(Y1+Y2+Y3+Y4)/4

Teorema. Deixe ser um funcional, em seguida, a sua estimativa calculável paramétrico melhor linear imparcial (aka, estimativa de Gauss-Markov) é φ ( β ) para qualquer solução β para as equações normais X ' X p = X ' Y .ϕ(β)=pβϕ(β^)β^XXβ^=XY

A prova é a seguinte:

Prova. Cálculo mostra simples que as equações normais é que, depois de simplificação, é [ φ ( β ) θ 2 / 2 - φ

[404020404]β^=[111101011111]Y,
ou seja,φ( β )= ˉ Y .
[ϕ(β^)θ^2/2ϕ(β^)]=[Y¯(Y2Y4)/4Y¯],
ϕ(β^)=Y¯

Portanto, a opção D é a única resposta correta.


Adendo: A conexão entre estimabilidade e identificabilidade

Quando eu estava na escola, um professor mencionou brevemente que a estimativa do funcional paramétrico corresponde à identificabilidade do modelo. Eu tomei essa reivindicação como certa então. No entanto, a equivalência precisa ser explicitada mais explicitamente.ϕ

According to A.C. Davison's monograph Statistical Models p.144,

Definition 2. A parametric model in which each parameter θ generates a different distribution is called identifiable.

For linear model (1), regardless the spherity condition Var(ε)=σ2I, it can be reformulated as

(2)E[Y]=Xβ,βRk.

It is such a simple model that we only specified the first moment form of the response vector Y. When rank(X)=k, model (2) is identifiable since β1β2 implies Xβ1Xβ2 (the word "distribution" in the original definition, naturally reduces to "mean" under model (2).).

Now suppose that rank(X)<k and a given parametric functional ϕ(β)=pβ, how do we reconcile Definition 1 and Definition 2?

Well, by manipulating notations and words, we can show that (the "proof" is rather trivial) the estimability of ϕ(β) is equivalent to that the model (2) is identifiable when it is parametrized with parameter ϕ=ϕ(β)=pβ (the design matrix X is likely to change accordingly). To prove, suppose ϕ(β) is estimable so that Xβ1=Xβ2 implies pβ1=pβ2, by definition, this is ϕ1=ϕ2, hence model (3) is identifiable when indexing with ϕ. Conversely, suppose model (3) is identifiable so that Xβ1=Xβ2 implies ϕ1=ϕ2, which is trivially ϕ1(β)=ϕ2(β).

Intuitively, when X is reduced-ranked, the model with β is parameter redundant (too many parameters) hence a non-redundant lower-dimensional reparametrization (which could consist of a collection of linear functionals) is possible. When is such new representation possible? The key is estimability.

To illustrate the above statements, let's reconsider your example. We have verified parametric functionals ϕ2(β)=θ1θ3 and ϕ3(β)=θ2 are estimable. Therefore, we can rewrite the model (1) in terms of the reparametrized parameter (ϕ2,ϕ3) as follows

E[Y]=[10111011][ϕ2ϕ3]=X~γ.

Clearly, since X~ is full-ranked, the model with the new parameter γ is identifiable.


If you need a proof for the second part of option C, I will supplement my answer.
Zhanxiong

2
thanks! for such a detailed answer. Now, about the second part of C: I know that "best" relates to minimum variance. So, why not 14(Y1+Y2+Y3+Y4) is not "best"?
Stat_prob_001

2
Oh, I don't know why I thought it is the estimator in C. Actually (Y1+Y2+Y3+Y4)/4 is the best estimator. Will edit my answer
Zhanxiong

6

Apply the definitions.

I will provide details to demonstrate how you can use elementary techniques: you don't need to know any special theorems about estimation, nor will it be necessary to assume anything about the (marginal) distributions of the Yi. We will need to supply one missing assumption about the moments of their joint distribution.

Definitions

All linear estimates are of the form

tλ(Y)=i=14λiYi
for constants λ=(λi).

An estimator of θ1θ3 is unbiased if and only if its expectation is θ1θ3. By linearity of expectation,

θ1θ3=E[tλ(Y)]=i=14λiE[Yi]=λ1(θ1θ3)+λ2(θ1+θ2θ3)+λ3(θ1θ3)+λ4(θ1θ2θ3)=(λ1+λ2+λ3+λ4)(θ1θ3)+(λ2λ4)θ2.

Comparing coefficients of the unknown quantities θi reveals

(1)λ2λ4=0 and λ1+λ2+λ3+λ4=1.

In the context of linear unbiased estimation, "best" always means with least variance. The variance of tλ is

Var(tλ)=i=14λi2Var(Yi)+ij4λiλjCov(Yi,Yj).

The only way to make progress is to add an assumption about the covariances: most likely, the question intended to stipulate they are all zero. (This does not imply the Yi are independent. Furthermore, the problem can be solved by making any assumption that stipulates those covariances up to a common multiplicative constant. The solution depends on the covariance structure.)

Since Var(Yi)=σ2, we obtain

(2)Var(tλ)=σ2(λ12+λ22+λ32+λ42).

The problem therefore is to minimize (2) subject to constraints (1).

Solution

The constraints (1) permit us to express all the λi in terms of just two linear combinations of them. Let u=λ1λ3 and v=λ1+λ3 (which are linearly independent). These determine λ1 and λ3 while the constraints determine λ2 and λ4. All we have to do is minimize (2), which can be written

σ2(λ12+λ22+λ32+λ42)=σ24(2u2+(2v1)2+1).

No constraints apply to (u,v). Assume σ20 (so that the variables aren't just constants). Since u2 and (2v1)2 are smallest only when u=2v1=0, it is now obvious that the unique solution is

λ=(λ1,λ2,λ3,λ4)=(1/4,1/4,1/4,1/4).

Option (C) is false because it does not give the best unbiased linear estimator. Option (D), although it doesn't give full information, nevertheless is correct, because

θ2=E[t(0,1/2,0,1/2)(Y)]

is the expectation of a linear estimator.

It is easy to see that neither (A) nor (B) can be correct, because the space of expectations of linear estimators is generated by {θ2,θ1θ3} and none of θ1,θ3, or θ1+θ3 are in that space.

Consequently (D) is the unique correct answer.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.