Como encontrar estimativas de probabilidade máxima de um parâmetro inteiro?


7

HW Pergunta :

x1,x2,,xn são variáveis ​​gaussianas independentes com média e variância . Defina que é desconhecido. Estamos interessados ​​na estimação de partir de .μσ2y=n=1NxnNNy

uma. Dado determine seu viés e variação.N^1=y/μ

b. Dado determine seu viés e variância.N^2=y2/σ2

Ignorando o requisito de ser um número inteiroN

c. Existe um estimador eficiente (observe e )?μ=0μ0

d. Encontre a estimativa de probabilidade máxima de partir de .Ny

e Encontre CRLB de partir de .Ny

f. O erro quadrático médio dos estimadores atinge CRLB quando ?N^1,N^2N

insira a descrição da imagem aqui

Se alguém pudesse me direcionar para a solução do seguinte problema, seria ótimo.

Obrigado,

Nadav


Qual é a distribuição deY=iXi?
BruceET

Isso não diz. Suponho que também será distribuído como Gaussian variável já que é uma soma de variáveis Gaussian
Nadav Talmon

11
Se for normal, então e são normais. O que são a média e a variação de Isso deve terminar o problema. // Na prática, suponho que faça sentido arredondar para um número inteiro. Isso pode fazer uma pequena diferença na média e variância. Você pode descobrir quanta diferença por simulação. XiY=IXiN^=Y/μN^?N^
BruceET

O não será o ? Mesma lógica para a médiaVar(Nestimated)Var(y)/μ
Nadav Talmon

2
Como é integral, você não pode (diretamente) usar Cálculo para encontrar o mínimo. Se esse é seu obstáculo, apresente seu trabalho na sua pergunta para que possamos nos concentrar em onde você realmente precisa de ajuda. N
whuber

Respostas:


11

Você começou bem escrevendo uma expressão para a probabilidade. É mais simples reconhecer que sendo a soma das variáveis independentes normais , tem uma distribuição Normal com média e variância onde sua probabilidade éY,N(μ,σ2)NμNσ2,

L(y,N)=12πNσ2exp((yNμ)22Nσ2).

Vamos trabalhar com seu logaritmo negativo cujos mínimos correspondem aos máximos da probabilidade:Λ=logL,

2Λ(N)=log(2π)+log(σ2)+log(N)+(yNμ)2Nσ2.

Precisamos encontrar todos os números inteiros que minimizem essa expressão. Finja por um momento que pode ser qualquer número real positivo. Como tal, é uma função continuamente diferenciável de com derivadaN2ΛN

ddN2Λ(N)=1N(yNμ)2σ2N22μ(yNμ)Nσ2.

Equacione isso a zero para procurar pontos críticos, limpe os denominadores e faça um pouco de álgebra para simplificar o resultado, fornecendo

(1)μ2N2+σ2Ny2=0

com uma solução positiva única (quando )μ0

N^=12μ2(σ2+σ4+4μ2y2).

É simples verificar se, à medida que aproxima de ou cresce, cresce, então sabemos que não há um mínimo global próximo de nem próximo de Isso deixa apenas o ponto crítico que encontramos, que, portanto, deve ser o mínimo global. Além disso, deve diminuir à medida que é abordado de baixo ou de cima. Portanto,N02Λ(N)N0N.2ΛN^

Os mínimos globais de devem estar entre os dois números inteiros em ambos os lados deΛN^.

Isso fornece um procedimento eficaz para encontrar o estimador de Máxima Verossimilhança: é o piso ou o teto de (ou, ocasionalmente, os dois !), Então calcule e simplesmente escolha qual desses números inteiros gera menor.N^N^2Λ

Vamos fazer uma pausa para verificar se esse resultado faz sentido. Em duas situações, há uma solução intuitiva:

  1. Quando é muito maior que , estará próximo de onde uma estimativa decente de seria simplesmente Nesses casos, podemos aproximar o MLE negligenciando dando (conforme o esperado)μσYμ,N|Y/μ|.σ2,

    N^=12μ2(σ2+σ4+4μ2y2)12μ24μ2y2=|yμ|.

  2. Quando é muito maior que pode se espalhar por todo o lugar, mas, em média, deve estar próximo de onde uma estimativa intuitiva de seria simplesmente De fato, negligenciar na equação fornece a solução esperadaσμ, Y Y2σ2,Ny2/σ2.μ(1)

    N^y2σ2.

Nos dois casos, o MLE está de acordo com a intuição, indicando que provavelmente o resolvemos corretamente. As situações interessantes , então, ocorrem quando e são de tamanhos comparáveis. A intuição pode ser de pouca ajuda aqui.μσ


Para explorar isso ainda mais, simulei três situações em que é ou Não importa o que seja (desde que não seja zero), Em cada situação um aleatório para os casos fazendo isso independentemente cinco mil vezes.σ/μ1/3, 1,3.μμ=1.YN=2,4,8,16,

Estes histogramas resumir os mleS de . As linhas verticais marcam os verdadeiros valores de .NN

Figura

Em média, o MLE parece estar quase certo. Quando é relativamente pequeno, o MLE tende a ser preciso: é o que indicam os histogramas estreitos na linha superior. Quando o MLE é bastante incerto. Quando o MLE geralmente pode ser e algumas vezes pode ser várias vezes (especialmente quando é pequeno). Essas observações estão de acordo com o que foi previsto na análise intuitiva anterior.σσ|μ|,σ|μ|,N^=1NN


A chave para a simulação é implementar o MLE. Requer a resolução e a avaliação de para determinados valores de e A única nova idéia refletida aqui é verificar os números inteiros em ambos os lados de As duas últimas linhas da função realizam esse cálculo, com a ajuda de avaliar a probabilidade do log.(1)ΛY, μ,σ.N^.flambda

lambda <- Vectorize(function(y, N, mu, sigma) {
  (log(N) + (y-mu*N)^2 / (N * sigma^2))/2
}, "N") # The negative log likelihood (without additive constant terms)

f <- function(y, mu, sigma) {
  if (mu==0) {
    N.hat <- y^2 / sigma^2
  } else {
    N.hat <- (sqrt(sigma^4 + 4*mu^2*y^2) - sigma^2) / (2*mu^2)
  }
  N.hat <- c(floor(N.hat), ceiling(N.hat))
  q <- lambda(y, N.hat, mu, sigma)
  N.hat[which.min(q)]
} # The ML estimator

11
Eu não poderia ter pedido uma explicação melhor. Muito obrigado, você literalmente cobriu tudo!
Nadav Talmon

agora eu preciso dizer se existe um estimador eficiente (para e ). Eu sei que se um estimador é imparcial e responde ao CRLB, ele é eficiente. Eu sei que é imparcial, mas tomar a segunda derivada da função L parece não me levar aonde. μ!=0μ=0
Nadav Talmon

Ignore o fato de que é integral: ou seja, permita que a estimativa seja o mínimo global da função de probabilidade de log negativo. Continue a partir daí. N
whuber

Peguei a derivada da função de probabilidade de log negativo, como você sugeriu e tentei obter a seguinte expressão: Consegui fazer isso em mas não em é por isso que tivemos uma solução positiva única em ? C(N)×(g(y)N)μ=0μ!=0μ!=0
Nadav Talmon

Acho que não. Acho mais fácil reparametrizar o problema em termos de porque a derivada da probabilidade logarítmica é uma função quadrática deθ=1/N,θ.
whuber

5

O método que whuber usou em sua excelente resposta é um "truque" comum de otimização que envolve estender a função de probabilidade para permitir valores reais de e, em seguida, usar a concavidade da probabilidade de log para mostrar que o valor discreto de maximização é um dos fatores. valores discretos em ambos os lados de um ótimo contínuo. Esse é um método comumente usado em problemas discretos de MLE que envolvem uma função de verossimilhança côncava. Seu valor reside no fato de que geralmente é possível obter uma expressão simples de forma fechada para os ótimos contínuos.N

Para completar, nesta resposta, mostrarei um método alternativo, que usa cálculo discreto usando o operador de diferença para a frente . A função de probabilidade de log para esse problema é a função discreta:

y(N)=12[ln(2π)+ln(σ2)+ln(N)+(yNμ)2Nσ2]for NN.

A primeira diferença para a frente da probabilidade de log é:

Δy(N)=12[ln(N+1)ln(N)+(yNμμ)2(N+1)σ2(yNμ)2Nσ2]=12[ln(N+1N)+N(yNμμ)2(N+1)(yNμ)2N(N+1)σ2]=12[ln(N+1N)+[N(yNμ)22N(yNμ)μ+Nμ2][N(yNμ)2+(yNμ)2]N(N+1)σ2]=12[ln(N+1N)(y+Nμ)(yNμ)Nμ2N(N+1)σ2].

Com um pouco de álgebra, a segunda diferença de avanço pode ser mostrada como:

Δ2y(N)=12[ln(N+2N)+2N(N+1)μ2+2(y+Nμ)(yNμ)N(N+1)(N+2)σ2]<0.

Isso mostra que a função log-verossimilhança é côncava, portanto, seu menor ponto de maximização N^ será:

N^=min{NN|Δy(N)0}=min{NN|ln(N+1N)(y+Nμ)(yNμ)Nμ2N(N+1)σ2}.

(O próximo valor também será um ponto de maximização se e somente se Δy(N^)=0.) O MLE (o menor ou o conjunto inteiro) pode ser programado como uma função por meio de um whileloop simples , e isso deve ser capaz de fornecer a solução rapidamente. Vou deixar a parte de programação como um exercício.


Agradeço o seu tempo e a explicação completa. Obrigado @Ben!
Nadav Talmon

1

Comentário: Aqui está uma breve simulação em R paraμ=50,σ=3, que deve ser preciso em 2 ou três lugares, aproximando a média e o DP de Y. Você deve conseguir encontrar E(Y) e Var(Y) por métodos analíticos elementares, conforme indicado no meu comentário anterior. Se tivéssemosN=100 então E(N^) parece imparcial para N.

N = 100;  mu = 50;  sg = 3
y = replicate( 10^6, sum(rnorm(N, mu, sg))/mu )
mean(y);  sd(y)
[1] 99.99997
[1] 0.6001208
N.est = round(y);  mean(N.est);  sd(N.est)
[1] 99.9998
[1] 0.6649131

Obrigado Bruce!
Nadav Talmon

Posso fazer mais uma pergunta? Agora me perguntam se existe um estimador eficiente em relação ao que encontrei, e também afirma que agora ignoramos o requisito de N ser um número inteiro. o que significa que não é mais um número inteiro? como eu encontraria a probabilidade de log para esse caso?
Nadav Talmon

11
Se você deseja entender o potencial de viés, não use grandes N: tente um valor pequeno. N=1é especialmente interessante :-). É o casoμ=0.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.