RV Foutz e RC Srivastava examinaram a questão em detalhes. O artigo de 1977 "O desempenho do teste da razão de verossimilhança quando o modelo está incorreto" contém uma declaração do resultado distributivo em caso de especificação incorreta, juntamente com um esboço muito breve da prova, enquanto o artigo de 1978 "A distribuição assintótica da razão de verossimilhança quando o modelo está incorreto " contém a prova - mas o último é digitado no datilógrafo à moda antiga (embora ambos os trabalhos usem a mesma notação, para que você possa combiná-los na leitura). Além disso, para algumas etapas da prova, eles se referem a um artigo de KP Roy "Uma nota sobre a distribuição assintótica da razão de verossimilhança" de 1957, que não parece estar disponível on-line, nem mesmo fechado.
No caso de especificação errônea de distribuição, se o MLE ainda for consistente e assintoticamente normal (o que nem sempre é o caso), a estatística LR segue assintoticamente uma combinação linear de qui-quadrados independentes (cada um com um grau de liberdade)
−2lnλ→d∑i=1rciχ2i
onde . Pode-se ver a "semelhança": em vez de um qui-quadrado com h - m graus de liberdade, temos h - m qui-quadrados cada um com um grau de liberdade. Mas a "analogia" pára por aí, porque uma combinação linear de qui-quadrados não tem uma densidade de forma fechada. Cada qui-quadrado escalonado é uma gama, mas com um diferente c i parâmetro que conduz a um parâmetro diferente escala para a gama -e a soma de tais gamas não é fechada em forma, embora os seus valores podem ser calculados.r=h−mh−mh−mci
Para os constantes, temos c 1 ≥ c 2 ≥ . . . c r ≥ 0 , e eles são os autovalores de uma matriz ... qual matriz? Bem, usando a notação dos autores, defina Λ como o Hessian da probabilidade logarítmica e C como o produto externo do gradiente da probabilidade logarítmica (em termos de expectativa). Então V = Λ - 1 C ( Λ ′ ) - 1 é a matriz de variância-covariância assintótica do MLE.cic1≥c2≥...cr≥0ΛCV=Λ−1C(Λ′)−1
Em seguida, definir ser o r × r bloco superior diagonal de V . Mr×rV
Escreva também em forma de blocoΛ
Λ=[Λr×rΛ2Λ′2Λ3]
e conjunto ( W é o negativo da Schur Complemento de Λ ).W=−Λr×r+Λ′2Λ−13Λ2WΛ
Em seguida, os 's são os valores próprios da matriz M W avaliado nos valores verdadeiros dos parâmetros.ciMW
ADENDO
Respondendo à observação válida do OP nos comentários (às vezes, de fato, as perguntas se tornam um trampolim para o compartilhamento de um resultado mais geral, e elas podem ser negligenciadas no processo), eis como segue a prova de Wilks: Wilks começa com a articulação distribuição normal do MLE e passa a derivar a expressão funcional da Razão de Verossimilhança. Até e incluindo sua eq. , a prova pode avançar mesmo se assumirmos que temos uma especificação incorreta de distribuição: como observa o OP, os termos da matriz de covariância de variância serão diferentes no cenário de especificação incorreta, mas tudo o que Wilks faz é usar derivadas e identificar termos assintoticamente desprezíveis. E então ele chega na eq. [ 9 ][9][9]onde vemos que a estatística da razão de verossimilhança, se a especificação estiver correta, é apenas a soma das variáveis aleatórias normais padrão quadradas e, portanto, elas são distribuídas como um qui-quadrado com graus h - m de liberdade: (notação genérica )h−mh−m
−2lnλ=∑i=1h−m(n−−√θ^i−θiσi)2→dχ2h−m
Porém, se tivermos uma especificação incorreta, os termos usados para dimensionar o MLE centralizado e ampliado não são mais os termos que vai tornar as variâncias de cada elemento igual à unidade, e assim transformar cada termo em um rv normal padrão e a soma para um qui-quadrado.
E não são, porque esses termos envolvem osvalores esperadosdas segundas derivadas da probabilidade logarítmica ... mas o valor esperado só pode ser obtido com relação à verdadeira distribuição, uma vez que o MLE é uma função dos dados e da os dados seguem a distribuição verdadeira, enquanto as segundas derivadas da probabilidade logarítmica são calculadas com base na suposição de densidade incorreta. n−−√(θ^−θ)
−2lnλ=∑i=1h−m(n−−√θ^i−θiai)2
−2lnλ=∑i=1h−mσ2ia2i(n−−√θ^i−θiσi)2=∑i=1h−mσ2ia2iχ21
which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with h−m degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.