Idéia e intuição por trás da estimativa quase máxima de verossimilhança (QMLE)


17

Pergunta (s): Qual é a idéia e intuição por trás da estimativa de quase verossimilhança máxima (QMLE; também conhecida como estimativa de pseudo máxima verossimilhança, PMLE)? O que faz o estimador funcionar quando a distribuição de erro real não corresponde à distribuição de erro assumida?

O site da Wikipedia para QMLE é bom (breve, intuitivo, direto ao ponto), mas eu poderia usar um pouco mais de intuição e detalhes, talvez também uma ilustração. Outras referências são bem-vindas. (Lembro-me de revisar alguns livros de econometria procurando material sobre o QMLE e, para minha surpresa, o QMLE foi coberto apenas em um ou dois deles, por exemplo, Wooldridge "Análise Econométrica de Seção Transversal e Dados de Painel" (2010), Capítulo 13 Seção 11, pp. 502-517.)


2
Você leu os documentos de White sobre isso?
hejseb

2
@hejseb, talvez não, pelo menos eu não me lembro bem. É este ?
Richard Hardy

1
Sim, é esse. Ele se baseia fortemente em Huber (1967) , é claro, e reconhece isso plenamente. Mas o que se segue em econometria mal o faz. E o artigo de Huber, com todo o respeito, é pouco legível, em seu nível de tecnicidade; Hal White definitivamente contribuiu para uma digestão mais fácil do problema.
StasK 30/03/19

Respostas:


7

"O que faz o estimador funcionar quando a distribuição de erro real não corresponde à distribuição de erro assumida?"

Em princípio, o QMPLE não "funciona", no sentido de ser um estimador "bom". A teoria desenvolvida em torno do QMLE é útil porque levou a testes de especificação incorreta.

O que o QMLE certamente faz é estimar consistentemente o vetor de parâmetro que minimiza a divergência Kullback-Leiber entre a distribuição verdadeira e a especificada. Parece bom, mas minimizar essa distância não significa que a distância minimizada não será enorme.

Ainda assim, lemos que há muitas situações em que o QMLE é um estimador consistente para o verdadeiro vetor de parâmetros. Isso deve ser avaliado caso a caso, mas deixe-me dar uma situação muito geral, que mostra que não há nada inerente ao QMLE que o torne consistente para o verdadeiro vetor ...

... Pelo contrário, é o fato de coincidir com outro estimador que é sempre consistente (mantendo a premissa de amostra ergódica-estacionária): o antiquado, estimador do Método dos Momentos.

Em outras palavras, quando em dúvida sobre a distribuição, uma estratégia a considerar é "sempre especifique uma distribuição para a qual o estimador de Máxima Verossimilhança para os parâmetros de interesse coincida com o estimador do Método dos Momentos" : dessa maneira, não importa o quanto esteja errado é sua suposição distributiva, o estimador será pelo menos consistente.

Você pode levar essa estratégia a extremos ridículos: suponha que você tenha uma amostra de ID muito grande de uma variável aleatória, na qual todos os valores são positivos. Continue e assuma que a variável aleatória é normalmente distribuída e aplique a máxima probabilidade para a média e a variação: seu QMLE será consistente para os valores reais.

É claro que isso levanta a questão: por que pretender aplicar o MLE, já que o que estamos fazendo essencialmente é confiar e se esconder por trás dos pontos fortes do Método dos Momentos (que também garante a normalidade assintótica)?

Em outros casos mais refinados, o QMLE pode ser consistente com os parâmetros de interesse se pudermos dizer que especificamos corretamente a função média condicional, mas não a distribuição (este é o caso do Pooled Poisson QMLE - consulte Wooldridge). .


Isto é interessante. Você poderia aditar algumas referências para essa teoria?
Kjetil b halvorsen

1
@kjetilbhalvorsen Este não é um arcabouço teórico desenvolvido, pois apenas sintetiza de maneira óbvia alguns resultados muito básicos. A síntese apareceu na minha cabeça enquanto eu estava sendo atormentado em relação às conseqüências de erros de especificação. E acredito que há também um lado "político" em não ser elogiado em trabalhos de pesquisa: não gostaríamos de destronar o rei MLE, agora, gostaríamos?
Alecos Papadopoulos

8

0 0=Eu=1nS(β,XEu,YEu)=DTW(Y-g-1(XTβ))
D=βg-1(XTβ)W=V-1 . Essa notação se origina no trabalho de McCullogh e Nelder no texto original, " Modelos lineares generalizados ". M&N descrevem a solução desses tipos de funções usando o algoritmo do tipo Gauss Newton.

Curiosamente, no entanto, essa formulação atendeu a um estimador do tipo método dos momentos em que alguém poderia simplesmente "definir o que deseja estimar" no RHS da expressão entre parênteses, e confiar que a expressão convergiria para "aquele interesse". coisa". Era uma forma proto de estimar equações.

As equações de estimativa não eram um conceito novo. De fato, tentativas, desde 1870 e início de 1900, de apresentar EEs teoremas de limite derivados corretamente de EEs usando expansões de Taylor, mas a falta de conexão com um modelo probabilístico foi motivo de discórdia entre os revisores críticos.

S

No entanto, em contraste com a resposta acima, quasilikelihood possui sido amplamente utilizada. Uma discussão muito agradável em McCullogh e Nelder trata da modelagem populacional de caranguejos-ferradura. Não muito diferente dos humanos, seus hábitos de acasalamento são simplesmente bizarros: onde muitos machos podem se reunir com uma única fêmea em "grupos" não medidos. Do ponto de vista ecologista, observar esses clusters está muito além do escopo de seu trabalho, mas, mesmo assim, chegar a previsões de tamanho da população a partir da captura e liberação representa um desafio significativo. Acontece que esse padrão de acoplamento resulta em um modelo de Poisson com sub-dispersão significativa, ou seja, a variação é proporcional, mas não igual à média.

As dispersões são consideradas parâmetros incômodos no sentido de que geralmente não baseamos inferência sobre seu valor, e estimar conjuntamente uma única probabilidade resulta em probabilidades altamente irregulares. A quase-probabilidade é uma área estatística muito útil, especialmente à luz do trabalho posterior sobre equações de estimativa generalizada .


1
(+1) Resposta muito útil.
Alecos Papadopoulos

2

Eu tive uma pergunta semelhante à original postada aqui por Richard Hardy. Minha confusão foi que os parâmetros estimados a partir de quase-ML podem não existir na distribuição "verdadeira" desconhecida. Nesse caso, o que significa "consistência" exatamente? Para que os parâmetros estimados convergem?

Após verificar algumas referências ( White (1982) deve ser um dos artigos originais, mas está fechado. Uma exposição útil que encontrei é http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf ), meus pensamentos em inglês simples são os seguintes: depois de admitir que a distribuição que assumimos é apenas uma aproximação à verdadeira desconhecida, a coisa prática que podemos fazer é encontrar o valor do parâmetro para minimizar sua distância (distância de Kullback-Leiblerpara ser mais preciso). A beleza da teoria é que, sem a necessidade de conhecer a verdadeira distribuição, os parâmetros estimados do quase-ML convergem para esse parâmetro de minimização da distância (é claro, existem outros resultados úteis da teoria, como a distribuição assintótica da estimativa parâmetros etc., mas eles não são o foco da minha pergunta aqui).

Assim como Alecos Papadopolous mencionou em sua resposta acima, a distância minimizada ainda pode ser grande. Portanto, a distribuição que assumimos poderia ser uma aproximação ruim da verdadeira. Tudo o que o quase-ML pode fazer é tornar nossa distribuição assumida o mais próxima possível da verdadeira distribuição desconhecida. Espero que minha experiência compartilhada aqui possa ser útil para outras pessoas com confusões semelhantes.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.