Exemplos em que o método dos momentos pode superar a máxima probabilidade em pequenas amostras?


57

Estimadores de máxima verossimilhança (MLE) são assintoticamente eficientes; vemos o resultado prático, na medida em que eles geralmente se saem melhor do que as estimativas do método dos momentos (MoM) (quando diferem), mesmo em amostras pequenas

Aqui "melhor que" significa no sentido de tipicamente ter menor variação quando ambos são imparciais, e tipicamente menor erro quadrado médio (MSE) em geral.

A questão ocorre, no entanto:

Existem casos em que o MoM pode vencer o MLE - no MSE , digamos - em pequenas amostras?

(onde esta não é uma situação estranha / degenerada - ou seja, considerando que as condições para a existência de ML / são assintoticamente eficientes)

Uma pergunta de acompanhamento seria então 'quão grande pode ser o tamanho pequeno?' - isto é, se houver exemplos, existem alguns que ainda se mantêm em tamanhos de amostra relativamente grandes, talvez até em todos os tamanhos de amostra finitos?

[Posso encontrar um exemplo de um estimador tendencioso que pode superar o ML em amostras finitas, mas não é o MoM.]


Nota adicionada retrospectivamente: meu foco aqui é principalmente no caso univariado (que é de fato a origem da minha curiosidade subjacente). Não quero descartar casos multivariados, mas também não quero entrar em discussões prolongadas sobre a estimativa de James-Stein.


Sem problemas; isso acontece com todos nós e comigo com mais frequência do que você. Eu provavelmente deveria ter colocado certo no título, mas já era bastante longo.
Glen_b

@ cardinal Eu deixei os critérios mais claros agora.
Glen_b

3
Existem outras maneiras pelas quais o método dos momentos pode "vencer" a máxima probabilidade. Por exemplo, em problemas de estimativa de mistura normal, o MLE é notoriamente difícil de calcular enquanto o MoM não é.
vqv

@vqv Certamente esse é um sentido em que o MoM pode ser preferível.
Glen_b

2
Como tenho tendência a simpatizar com os plebeus, informo que em uma amostra de iid Uniforms , o estimador de MoM para tem o mesmo MSE que o patrício (MLE) se o tamanho da amostra for , ou ... Mas, infelizmente, para amostras maiores, o patrício afirma sua soberania novamente ...θ 1 2U(0,θ)θ12
Alecos Papadopoulos

Respostas:


36

Isso pode ser considerado ... trapaça, mas o estimador OLS é um estimador MoM. Considere uma especificação de regressão linear padrão (com regressores estocásticos, para que as magnitudes sejam condicionadas à matriz do regressor) e uma amostra do tamanho . Denota o estimador OLS da variância do termo de erro. É imparcial, entãon s 2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

Considere agora o MLE de . Isto éσ2

σ^ML2=nKns2
É tendencioso. Seu MSE é

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
Expressando o MLE em termos de OLS e usando a expressão para a variação do estimador de OLS, obtemos

HSE( σ 2 H L )=2(n-K)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Queremos as condições (se existirem) sob as quais

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
Simplificando, obtemos É possível que este quadrático em obtenha valores negativos? Precisamos que seu discriminante seja positivo. Temos que é outro quadrático, em neste momento. Esse discriminante é portanto para levar em consideração o fato de que é um número inteiro. Se
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnestá dentro desse intervalo, temos que e o quadrático em leva sempre valores positivos, portanto não podemos obter a desigualdade necessária. Então: precisamos de um tamanho de amostra maior que 12.ΔK<0K

Dado isso, as raízes do quadrático sãoK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

No geral: para tamanho de amostra e número de regressores tal que temos Para Por exemplo, se , verifica-se que o número de regressores deve ser para que a desigualdade seja mantida. É interessante que, para pequenos números de regressores, o MLE seja melhor no sentido MSE.n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

ADENDO
A equação para as raízes do quadrante pode ser escritaK

K1,K2=(n2+1)±(n2+1)24n
que, com uma rápida olhada, acho que implica que a raiz inferior sempre ser (considerando a restrição "valor inteiro"); portanto, o MLE será eficiente em MSE quando os regressores forem de até para qualquer tamanho de amostra (finito).55

11
Bem, a condição de momento teórico que acompanha a especificação é . Na medida em que usamos a amostra análoga de como um estimador para , eu diria que sim. E(uuX)=σ2E(uuX)σ2
Alecos Papadopoulos

11
@AlecosPapadopoulos O "analógico de amostra", eu argumentaria, levaria para o denominador, ou seja, seria o mesmo que o MLE. Se você está substituindo a expectativa teórica pela expectativa empírica, como você pode acabar com no denominador? As condições do momento natural devem ser e e substituindo por expectativas empíricas você obteria no denominador. nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
cara,

2
@guy Essa é uma observação válida. A correção dos graus de liberdade sempre foi, para mim, uma questão conceitual no Method of Moments. Depois de todo o "análogo de amostra" não é um conceito rigorosa, e que está ligada com o conceito de "meio de amostragem" através da correspondência assintótica deste último com o valor esperado -but num quadro assintótica, dividindo-se por em vez de faz não faz nenhuma diferença. Para mim, continua sendo uma questão não resolvida. Por outro lado, o estimador de máxima verossimilhança é determinado concretamente pelas equações de verossimilhança e pode ou não coincidir com o MoM. (CONTD)nKn
Alecos Papadopoulos

11
@guy (CONTD). Então, o que você está dizendo é que o estimador MoM da variação de erro, neste caso, é o estimador de probabilidade máxima e, portanto, o resultado que eu deduzi não compara MoM com ML, mas ML com OLS (sendo esta última uma categoria por si só). .. sim, pode-se argumentar que este é (também) o caso.
Alecos Papadopoulos

11
Existe algo como "o" estimador MoM? É "um" estimador de MoM, certo? Se você usar um resíduo de OLS selecionado aleatoriamente, , então . Essa é uma condição de momento perfeitamente bom, não é? E fornece um MoM perfeitamente bom para , não? Ou seja, o estimador OLS usual, . eE(e2)=nknσ2σ2s2
Bill

17

"Neste artigo, consideramos uma nova parametrização da distribuição Gaussiana Inversa de dois parâmetros. Encontramos os estimadores para parâmetros da distribuição Gaussiana Inversa pelo método dos momentos e pelo método da máxima verossimilhança. Em seguida, comparamos a eficiência da estimadores para os dois métodos com base em seu viés e erro quadrático médio (MSE). Para isso, fixamos valores de parâmetros, executamos simulações e relatamos MSE e viés para estimativas obtidas pelos dois métodos. A conclusão é que, quando o tamanho da amostra é 10, o método dos momentos tende a ser mais eficiente que o método da máxima verossimilhança para estimativas de ambos os parâmetros (lambda e teta) .... " leia mais

Atualmente, não se pode (ou não deve) confiar em tudo que foi publicado, mas a última página do artigo parece promissora. Espero que isso endereça sua nota adicionada retrospectivamente.


11
Se eu entendo as tabelas desse artigo corretamente, acredito que você está correto - em alguns tamanhos de amostra, o método dos momentos (MME no artigo) parece superar o MLE, pelo menos na estimativa de . (No entanto, alguns dos resultados da simulação parecem um pouco estranhos - por exemplo, a progressão da coluna mais à direita na p49.) - esse é um resultado muito interessante para mim porque o Gaussiano inverso é relativamente usado. θ
Glen_b

Boa descoberta! Mesmo se os resultados estiverem desativados, é bom ver a reivindicação explicitamente declarada em algum lugar.
Ben Ogorek

O artigo ao qual vinculei minha resposta se originou de uma tese de mestrado, que está disponível na íntegra aqui: digi.library.tu.ac.th/thesis/st/0415 Veja, por exemplo, a seção 5.2 para a declaração relevante. Seis pessoas, incluindo um professor titular, assinaram este resultado.
Hibernando

14

De acordo com simulações realizadas por Hosking e Wallis (1987) em "Estimativa de parâmetros e quantis para a distribuição de Pareto generalizada", os parâmetros da distribuição de Pareto generalizada de dois parâmetros fornecidos pelo cdf

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

ou a densidade

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

são mais confiáveis ​​se forem estimadas por meio do MOM em oposição ao ML. Isso vale para amostras de tamanho 500. As estimativas do MOM são fornecidas por

β^=y¯y2¯2(y2¯(y¯)2)

e

ξ^=12(y¯)22(y2¯(y¯)2)

com

y2¯=1ni=1nyi2

O artigo contém alguns erros de digitação (pelo menos minha versão). Os resultados para os estimadores do MOM dados acima foram gentilmente fornecidos por "heropup" neste tópico .


Obrigado por isso. É um dos exemplos mais simples do que eu estava procurando até agora.
Glen_b

13

Eu encontrei um:

Para a distribuição de potência exponencial assimétrica

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

os resultados da simulação de Delicado e Goria (2008) sugerem que, para alguns dos parâmetros em amostras menores, o método dos momentos pode superar o MLE; por exemplo, no caso conhecido no tamanho da amostra 10, ao estimar , o MSE do MoM é menor que o do ML.θσ

Delicado e Goria (2008),
Uma pequena amostra de comparação dos métodos de máxima verossimilhança, momentos e momentos L para a distribuição de potência exponencial assimétrica,
Journal Computational Statistics & Data Analysis
Volume 52 Edição 3, Janeiro, pp 1661-1673

(veja também http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )


13

O método dos momentos (MM) pode superar a abordagem de máxima verossimilhança (ML) quando é possível especificar apenas alguns momentos da população. Se a distribuição estiver mal definida, os estimadores de ML não serão consistentes.

Assumindo momentos finitos e observações de iid, o MM pode fornecer bons estimadores com boas propriedades assintóticas.

Exemplo: Seja uma amostra iid de , em que é uma função de densidade de probabilidade desconhecida. Defina o ésimo momento e considere que o interesse é estimar o quarto momento .X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Vamos , assumindo que , o teorema do limite central garante que que " " significa "converge na distribuição para" . Além disso, pelo teorema de Slutsky,Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
desde (convergência em probabilidade).X8¯X4¯2Pν8ν42

Ou seja, podemos extrair inferências (aproximadas) para usando a abordagem de momento (para amostras grandes), apenas temos que fazer algumas suposições sobre os momentos de interesse da população. Aqui, os estimadores de probabilidade máxima não podem ser definidos sem conhecer a forma de . fν4f

Um estudo de simulação:

Patriota et al. (2009) realizaram alguns estudos de simulação para verificar as taxas de rejeição de testes de hipóteses em um modelo de erros em variáveis. Os resultados sugerem que a abordagem MM produz taxas de erro sob a hipótese nula mais próxima do nível nominal do que a ML para amostras pequenas.

Nota histórica:

O método dos momentos foi proposto por K. Pearson em 1894 "Contribuições para a teoria matemática da evolução". O método de máxima verossimilhança foi proposto por RA Fisher em 1922 "Sobre os fundamentos matemáticos da estatística teórica". Ambos os artigos foram publicados nas Transações Filosóficas da Sociedade Real de Londres, Série A.

Referência:

Fisher, RA (1922). Sobre os fundamentos matemáticos da estatística teórica, transações filosóficas da Royal Society de Londres, série A, 222, 309-368.

Patriota, AG, Bolfarine, H. de Castro, M (2009). Um modelo heterocedástico de erros estruturais em variáveis ​​com erro de equação, Statistical Methodology 6 (4), 408-423 ( pdf )

Pearson, K (1894). Contribuições para a Teoria Matemática da Evolução, Transações Filosóficas da Sociedade Real de Londres, Série A, 185, 71-110.


11
Sua resposta parece ser potencialmente interessante. Você é capaz de expandir um pouco? Não tenho certeza se estou vendo.
Glen_b

@Glen_b, verifique se minha última adição ajuda você.
Alexandre Patriota

Obrigado por isso; Eu acredito que vejo no que você está chegando.
Glen_b

OK, é um comentário geral, mas acho que responde à sua pergunta. Se você fornecer informações totais sobre o comportamento dos dados, é bastante natural que a abordagem de ML supere a abordagem de MM. No artigo [1], realizamos alguns estudos de simulação para verificar as taxas de rejeição de testes de hipóteses em um modelo de erros em variáveis. Os resultados sugerem que a abordagem MM produz taxas de erro sob a hipótese nula mais próxima do nível nominal do que a ML para amostras pequenas. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota

Este é um exemplo atípico do método dos momentos (MoM). O MoM geralmente é implantado em problemas de estimativa paramétrica, onde existe uma família paramétrica bem definida de distribuições. Por outro lado, você pode definir uma estimativa de probabilidade máxima não paramétrica aqui. A função de distribuição empírica, digamos F-hat, é a estimativa de probabilidade máxima não paramétrica da função de distribuição desconhecida F. Considerando o 4º momento como sendo funcional de F, o MLE não paramétrico do 4º momento é o 4º momento do F-hat . É o mesmo que no quarto momento da amostra.
vqv

5

Fontes adicionais a favor do MOM:

Hong, HP e W. Ye. 2014. Análise de cargas extremas de neve no solo no Canadá usando registros de profundidade da neve . Natural Hazards 73 (2): 355-371.

O uso de MML pode fornecer previsões irreais se o tamanho da amostra for pequeno (Hosking et al. 1985; Martin e Stedinger 2000).


Martins, ES e JR Stedinger. 2000. Estimadores de quantis generalizados de valor extremo generalizado com probabilidade máxima para dados hidrológicos . Pesquisa de Recursos Hídricos 36 (3): 737-744.

Abstrato:

A distribuição de valor extremo generalizado (GEV) de três parâmetros encontrou ampla aplicação para descrever inundações anuais, chuvas, velocidades do vento, alturas das ondas, profundidades da neve e outros máximos. Estudos anteriores mostram que os estimadores de máxima verossimilhança de amostra pequena (MLE) de parâmetros são instáveis ​​e recomendam estimadores de momento L. Pesquisas mais recentes mostram que os estimadores do método dos momentos em quantis apresentam para -0,25 <κ <0,30 menor erro quadrático médio do que momentos L e MLEs. O exame do comportamento dos MLEs em pequenas amostras demonstra que valores absurdos do parâmetro de forma GEV k podem ser gerados. O uso de uma distribuição prévia bayesiana para restringir os valores de k a um intervalo estatisticamente / fisicamente razoável em uma análise de máxima verossimilhança generalizada (GML) elimina esse problema.

Nas seções Introdução e Revisão de Literatura, eles citam artigos adicionais que concluíram que o MOM em alguns casos supera o MLE (novamente modelagem de valores extremos), por exemplo

Hosking et al. [1985a] mostram que os estimadores de parâmetros MLE de amostra pequena são muito instáveis ​​e recomendam estimadores de momento ponderado por probabilidade (PWM) que são equivalentes aos estimadores de momento L [Hosking, 1990]. [...]

Hosking et al. [1985a] mostraram que os estimadores de momentos ponderados em probabilidade (PM) ou momentos L equivalentes (LM) para a distribuição GEV são melhores que os estimadores de máxima verossimilhança (MLE) em termos de viés e variância para tamanhos de amostra variando de 15 a 100. Mais recentemente, Madsen et al. [1997a] mostraram que os estimadores quantílicos do método dos momentos (MOM) têm RMSE (raiz quadrada média quadrada) menor para -0,25 <K <0,30 que LM e MLE ao estimar o evento de 100 anos para amostras de 10-50 . Os MLEs são preferíveis apenas quando K> 0,3 e o tamanho da amostra é modesto (n> = 50).

K (kappa) é o parâmetro de forma do GEV.

papéis que aparecem nas citações:

Hosking J, Wallis J, Wood E (1985) Estimativa da distribuição generalizada de valores extremos pelo método dos momentos ponderados por probabilidade . Technometrics 27: 251–261.

Madsen, H., PF Rasmussen e D. Rosbjerg (1997) Comparação de métodos anuais de séries máximas e séries de duração parcial para modelar eventos hidrológicos extremos , 1, Modelagem no local, Water Resour. Res. 33 (4), 747-758.

Hosking, JRM, momentos L: análise e estimativa de distribuições usando combinações lineares de estatísticas de pedidos , JR Stat. Soc. Ser. B, 52, 105-124, 1990.


Além disso, tenho a mesma experiência concluída nos artigos acima, no caso de modelar eventos extremos com tamanho de amostra pequeno e moderado (<50-100, o que é típico), o MLE pode fornecer resultados irreais, a simulação mostra que o MOM é mais robusto e tem RMSE menor.


3

No processo de responder a isso: Estimando parâmetros para um binômio , deparei-me com este artigo:

Ingram Olkin, A John Petkau, James V Zidek: Uma comparação dos estimadores de N para a Distribuição Binomial. Jasa 1981.

que dá um exemplo em que o método dos momentos, pelo menos em alguns casos, supera a probabilidade máxima. O problema é a estimativa de na distribuição binomial onde ambos os parâmetros são desconhecidos. Aparece, por exemplo, ao tentar estimar a abundância de animais quando você não pode ver todos os animais, e a probabilidade de avistar também é desconhecida.Bin ( N , p ) pNBin(N,p)p


Uma coisa muito legal nesse exemplo é que é muito simples transmitir a situação - muitas pessoas estão familiarizadas com o binômio (pelo menos em conceito, se não sempre com o nome).
Glen_b
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.