A estimativa de MLE é assintoticamente normal e eficiente, mesmo que o modelo não seja verdadeiro?


13

Premissa: essa pode ser uma pergunta estúpida. Conheço apenas as declarações sobre as propriedades assintóticas do MLE, mas nunca estudei as provas. Se sim, talvez eu não esteja fazendo essas perguntas, ou talvez eu perceba que essas perguntas não fazem sentido ... então, por favor, vá devagar comigo :)

Eu sempre vi declarações que dizem que o estimador MLE dos parâmetros de um modelo é assintoticamente normal e eficiente. A declaração é geralmente escrita como

θ^dN(θ0,I(θ0)1)comoN

onde N é o número de amostras,I é informações de Fisher e é o valor verdadeiro do parâmetro (vetor) . Agora, como há referência a um modelo verdadeiro, isso significa que o resultado não será válido se o modelo não for verdadeiro?θ0

Exemplo: suponha que eu modele a potência de uma turbina eólica em função da velocidade do vento mais ruído gaussiano aditivoVPV

P=β0+β1V+β2V2+ϵ

Sei que o modelo está errado, por pelo menos duas razões: 1) é realmente proporcional à terceira potência de e 2) o erro não é aditivo, porque negligenciei outros preditores que não são correlacionados com a velocidade do vento (também sei esse deve ser 0 porque, na velocidade do vento 0, nenhuma energia é gerada, mas isso não é relevante aqui). Agora, suponha que eu tenha um banco de dados infinito de dados de potência e velocidade do vento da minha turbina eólica. Posso desenhar quantas amostras eu quiser, de qualquer tamanho. Suponha que eu colete 1000 amostras, cada uma com tamanho 100, e calcule , a estimativa do MLE deV p 0 β 100 β = ( β 0 , p 1 , β 2 ) β 100 N = 500 , 1000 , 1500 , ... N β NPVβ0β^100β=(β0,β1,β2)(que, no meu modelo, seria apenas a estimativa do OLS). Assim, tenho 1000 amostras da distribuição de . Posso repetir o exercício com . Como , a distribuição de tende a ser assintoticamente normal, com a média e variância declaradas? Ou o fato de o modelo estar incorreto invalida esse resultado?β^100N=500,1000,1500,Nβ^N

A razão pela qual estou perguntando é que raramente (se é que alguma vez) modelo é "verdadeiro" em aplicativos. Se as propriedades assintóticas do MLE forem perdidas quando o modelo não for verdadeiro, poderá fazer sentido usar diferentes princípios de estimativa, os quais, embora menos poderosos em um ambiente em que o modelo esteja correto, possam ter um desempenho melhor que o MLE em outros casos.

EDIT : observou-se nos comentários que a noção de modelo verdadeiro pode ser problemática. Eu tinha a seguinte definição em mente: dada uma família de modelos indicada pelo vetor de parâmetro , para cada modelo da família, você sempre pode escrever θfθ(x)θ

Y=fθ(X)+ϵ

simplesmente definindo como . No entanto, em geral, o erro não será ortogonal a , terá média 0 e não terá necessariamente a distribuição assumida na derivação do modelo. Se existe um valor tal que tem essas duas propriedades, bem como a distribuição assumida, eu diria que o modelo é verdadeiro. Eu acho que isso está diretamente relacionado a dizer que , porque o termo de erro na decomposiçãoϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

tem as duas propriedades mencionadas acima.


3
A estimativa do MLE geralmente é assintoticamente normal, mesmo que o modelo não seja verdadeiro, ele pode ser consistente com os valores dos parâmetros "menos falsos", por exemplo. Mas, nesses casos, será difícil mostrar eficácia ou outras propriedades de otimização.
precisa saber é o seguinte

1
Antes da eficiência, devemos procurar consistência. Em um cenário em que a verdade não está no seu espaço de pesquisa, precisamos de uma definição diferente de consistência, de modo que: d (P *, P), onde d é uma divergência, P * é o modelo mais próximo em termos de d, e P é verdade. Quando d é a divergência de KL (o que o MLE está minimizando), por exemplo, sabe-se que os procedimentos bayesianos são inconsistentes (não podem alcançar o modelo mais próximo), a menos que o modelo seja convexo. Portanto, eu assumiria que o MLE também será inconsistente. Portanto, a eficiência fica mal definida. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf
Cagdas Ozgenc

1
@Agdas Ozgenc: Em muitos casos (como regressão logística), o MLE ainda é consistente para os parâmetros "menos falsos". Você tem uma referência para sua alegação de inconsistência no caso não-convexo? Ficaria muito interessado? (Função Probabilidade de regressão logística é convexa)
b Kjetil Halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Está muito além da minha cabeça, mas é o que eu entendo. Se meu entendimento for falso, corrija-me. Eu sou apenas um hobby, afinal.
Cagdas Ozgenc #

4
Acho que ficamos com problemas quando usamos termos como "modelo é verdadeiro" ou "menos falso". Ao lidar com modelos na prática, todos são aproximados. Se fizermos certas suposições, podemos usar a matemática para mostrar propriedades estatísticas. Há sempre um conflito aqui entre a matemática da probabilidade e a análise prática de dados.
Michael R. Chernick

Respostas:


4

Não acredito que haja uma única resposta para essa pergunta.

Quando consideramos uma possível especificação errônea de distribuição ao aplicar a estimativa de máxima verossimilhança, obtemos o que é chamado estimador "Quase-Máxima Verossimilhança" (QMLE). Em certos casos, o QMLE é consistente e assintoticamente normal.

O que perde com certeza é a eficiência assintótica. Isso ocorre porque a variação assintótica de (esta é a quantidade que tem uma distribuição assintótica, não apenas θ ) é, em todos os casos,n(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

onde é a matriz hessiana da probabilidade logarítmica e S é o gradiente e o chapéu indica estimativas da amostra.HS

Agora, se tivermos a especificação correta , obtemos, primeiro, que

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

que é o inverso da informação de Fisher.

(1)(2)(1)(3)


Avarplimθθβ=(β0,β1,β2)β3Vθsignifica neste contexto?
DeltaIV 4/17/17

desculpe, a primeira edição do meu comentário foi incompreensível: agora meu argumento deve ficar claro. Em outras palavras, se não houver "verdadeiro" , o que devemos interpretar como θ na expressão θθ? n(θ^θ)
DeltaIV 4/17/17

1
@DeltaIV Zero. O QMLE "pegará" isso? Depende de se será consistente ou não - e novamente, não há uma resposta única para essa pergunta
Alecos Papadopoulos

1
θ=0

1
@ DeltaIV Eu sugeriria a exposição em Hayashi ch. 7 sobre estimadores extremos, no que diz respeito à consistência, normalidade do MLE, etc. No que diz respeito ao QMLE, o tópico é bastante amplo. Por exemplo, em "QMLE", também podemos ter situações em que reconhecemos desde o início que os parâmetros que estamos estimando podem não ter uma conexão clara com nenhum "parâmetro verdadeiro" (mas o exercício ainda é válido como uma aproximação)., e, portanto, obtenha um vetor "menos falso", conforme sugerido.
Alecos Papadopoulos
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.