Em um contexto um pouco mais geral com um vetor dimensional de observações- (as respostas ou variáveis dependentes), e matriz de observações- (covariáveis ou variáveis dependentes) e os parâmetros tais que então a probabilidade de menos log é
Na pergunta do OP, é diagonal com
YnyXn×pxθ=(β1,β2,σ)Y∼N(Xβ1,Σ(β2,σ))
l(β1,β2,σ)=12(Y−Xβ1)TΣ(β2,σ)−1(Y−Xβ1)+12log|Σ(β2,σ)|
Σ(β2,σ)Σ(β2,σ)ii=σ2g(zTiβ2)2
para que o determinante se torne e a probabilidade menos logarítmica resultante se torna
Existem várias maneiras de abordar a minimização dessa função (supondo que os três parâmetros sejam independentes de variação).
σ2n∏ni=1g(zTiβ2)212σ2∑i=1n(yi−xTiβ1)2g(zTiβ2)2+nlogσ+∑i=1nlogg(zTiβ2)
- Você pode tentar minimizar a função usando um algoritmo de otimização padrão, lembrando a restrição que .σ>0
- Você pode calcular o perfil com menos log-verossimilhança de minimizando over para fixo e, em seguida, conecte a função resultante a um algoritmo de otimização irrestrito padrão.(β1,β2)σ(β1,β2)
- Você pode alternar entre otimizar sobre cada um dos três parâmetros separadamente. A otimização de over pode ser feita analiticamente, otimizar over é um problema de regressão de mínimos quadrados ponderados e otimizar over é equivalente a ajustar um modelo linear generalizado gama com no link inverso.β 1 β 2 g 2σβ1β2g2
A última sugestão me agrada porque se baseia em soluções que eu já conheço bem. Além disso, a primeira iteração é algo que eu consideraria fazer de qualquer maneira. Ou seja, primeiro calcule uma estimativa inicial de por mínimos quadrados comuns, ignorando a heterocedasticidade potencial, e depois ajuste um gamma glm aos resíduos quadrados para obter uma estimativa inicial de apenas para verificar se o modelo mais complicado parece valer a pena. Iterações que incorporam a heterocedasticidade na solução de mínimos quadrados, uma vez que os pesos podem melhorar a estimativa.β 2 -β1β2 −
Em relação à segunda parte da pergunta, eu provavelmente consideraria calcular um intervalo de confiança para a combinação linear usando os assintóticos padrão do MLE (verificando com simulações se os assintóticos funcionam) ou usando bootstrap.wT1β1+wT2β2
Edit: Por padrão MLE assintóticos, quero dizer usando a aproximação normal multivariada para a distribuição do MLE com matriz de covariância a informação inversa de Fisher. A informação de Fisher é, por definição, a matriz de covariância do gradiente de . Depende em geral dos parâmetros. Se você puder encontrar uma expressão analítica para essa quantidade, tente conectar o MLE. Como alternativa, você pode estimar as informações de Fisher pelas informações observadas de Fisher, que é o Hessian de no MLE. Seu parâmetro de interesse é uma combinação linear dos parâmetros nos doisl β ( y i , x i , z i )llβ-vetores, portanto, a partir do normal multivariado aproximado do MLE, você pode encontrar uma aproximação normal da distribuição dos estimadores, conforme descrito aqui . Isso gera um erro padrão aproximado e você pode calcular intervalos de confiança. Está bem descrito em muitos livros de estatística (matemática), mas uma apresentação razoavelmente acessível que posso recomendar é In All Likelihood, de Yudi Pawitan. De qualquer forma, a derivação formal da teoria assintótica é bastante complicada e depende de várias condições de regularidade, e fornece apenas informações assintóticas válidas.distribuições. Portanto, em caso de dúvida, eu sempre faria algumas simulações com um novo modelo para verificar se posso confiar nos resultados para parâmetros realísticos e tamanhos de amostra. Um bootstrap simples e não paramétrico, no qual são amostrados os triplos do conjunto de dados observado com substituição, pode ser uma alternativa útil se o procedimento de ajuste não consumir muito tempo.(yi,xi,zi)