Quais são as propriedades do MLE que o tornam mais desejável que o OLS?

Essa pergunta parece fundamental o suficiente para que eu esteja convencido de que foi respondida aqui em algum lugar, mas não a encontrei.

Entendo que, se a variável dependente em uma regressão é normalmente distribuída, a probabilidade máxima e os mínimos quadrados comuns produzem as mesmas estimativas de parâmetro.

Quando a variável dependente não é normalmente distribuída, as estimativas do parâmetro OLS não são mais equivalentes ao MLE, mas ainda são as Melhores (variação mínima) Estimativas lineares não-tendenciosas (AZUL).

Então, quais são as propriedades do MLE que o tornam desejável além do que o OLS tem a oferecer (sendo AZUL)?

Em outras palavras, o que eu perco se não puder dizer que minhas estimativas de OLS são estimativas de probabilidade máxima?

Para motivar um pouco essa pergunta: estou me perguntando por que gostaria de escolher um modelo de regressão diferente de OLS na presença de uma variável dependente claramente não normal.

— Ótimo38
fonte

Depende do que você deseja do modelo. Os economistas geralmente desejam estimativas médias dos efeitos marginais na amostra, e o OLS fornece essas informações (desde que você não seja incomodado por suposições de separabilidade aditiva). Mas se você deseja um modelo que descreva outros recursos do fenômeno subjacente, o OLS também não funcionará. Por exemplo, você pode estar interessado em prever fora da amostra ou desejar melhores estimativas de incerteza.

— generic_user

Vale ressaltar que o OLS é mais sensível aos valores discrepantes, porque a função objetivo usa erro ao quadrado (então o problema fica pior quanto mais extremo o desvio). É por isso que técnicas de 'regressão robusta', como a estimativa M, usam o MLE em vez do OLS.

— HEITZ

Se o termo de erro não for normal, os testes t e os coeficientes F podem não ser confiáveis. Inclinação extrema e valores extremos extremos são um problema específico. Por questões práticas, isso dificulta a especificação correta do modelo, contribuindo para possível viés nas estimativas do coeficiente (a partir da falta de especificação) e baixo desempenho da amostra.

— precisa saber é o seguinte

Respostas:

À medida que você se afasta suficientemente da normalidade, todos os estimadores lineares podem ser arbitrariamente ruins .

Saber que você pode obter o melhor de um lote ruim (ou seja, a melhor estimativa imparcial linear) não é muito consolador.

Se você pode especificar um modelo distributivo adequado ( sim, existe o problema ), maximizar a probabilidade tem um apelo intuitivo direto - na medida em que "maximiza a chance" de ver a amostra que você realmente viu (com um refinamento adequado do que significa isso para o caso contínuo) e várias propriedades muito interessantes que são teóricas e praticamente úteis (por exemplo, relação com o limite inferior de Cramer-Rao, equivalência em transformação, relação com testes de razão de verossimilhança e assim por diante). Isso motiva a estimativa M, por exemplo.

Mesmo quando você não pode especificar um modelo, é possível construir um modelo para o qual o ML seja robusto à contaminação por erros grosseiros na distribuição condicional da resposta - onde ele mantém uma eficiência muito boa no Gaussiano, mas evita o potencialmente desastroso impacto de valores discrepantes arbitrariamente grandes.

[Essa não é a única consideração com a regressão, pois também é necessário robustez ao efeito de outliers influentes, por exemplo, mas é um bom passo inicial]

$\frac12$

A parte superior do diagrama é um gráfico de caixa dessas mil estimativas de inclinação para cada simulação. A parte inferior é o um por cento central (aproximadamente, é marcada com uma caixa cinza-alaranjada fraca na plotagem superior) da imagem "explodida" para que possamos ver mais detalhes. Como vemos, as inclinações dos mínimos quadrados variam de -771 a 1224 e os quartis inferior e superior são -1,24 e 2,46. O erro na inclinação LS foi superior a 10 mais de 10% do tempo. Os dois estimadores não lineares se saem muito melhor - eles se saem de maneira bastante semelhante, nenhuma das estimativas de 1000 inclinações em ambos os casos está a mais de 0,84 da inclinação verdadeira e o erro absoluto médio na inclinação está no campo de 0,14 para cada (vs 1,86 para o estimador de mínimos quadrados). A inclinação LS tem um RMSE de 223 e 232 vezes o dos estimadores L1 e LE neste caso (que '

Existem dezenas de outros estimadores razoáveis que podem ter sido usados aqui; esse foi simplesmente um cálculo rápido para ilustrar que mesmo os estimadores lineares melhores / mais eficientes podem não ser úteis. Um estimador de ML da inclinação teria um desempenho melhor (no sentido MSE) do que os dois estimadores robustos usados aqui, mas na prática você desejaria algo com alguma robustez a pontos influentes.

— Glen_b -Reinstate Monica
fonte

Bem dito. Isso faz muito sentido. Presumo que os estimadores lineares ainda funcionam muito bem (talvez até melhor que os estimadores não lineares) quando a variável dependente é não normal, mas ainda simétrica. Minha intuição está correta aqui?

— precisa saber é o seguinte

Não, a simetria não é suficiente para resgatar a estimativa linear. Considere os erros de Cauchy, por exemplo. Existem vários estimadores adequados, mas todos são não-lineares no sentido pretendido.

— Glen_b -Reinstala Monica

Fiz uma pequena simulação para ilustrar esse problema (de desempenho potencialmente arbitrariamente ruim) se aplica a distribuições de erros simétricas - veja minha edição. Essa simulação é para uma distribuição de erro simétrica. Você pode ver como os mínimos quadrados podem ser desastrosos nesse caso. De fato, mesmo uma pequena fração de contaminação com algo que pode ter erros grosseiros é um problema para ela. Ser AZUL às vezes pode ter pouco valor. Se você souber algo sobre como seus erros se comportam, pode ser uma boa idéia usar esse conhecimento ...

— ctd

ctd ... (via ML, digamos, mesmo se você o suplementar com um pouco de robustez, caso esteja errado; como limitar a função de influência do estimador M resultante) e se você não souber nada - não é suficiente para assumir uma probabilidade - não vale necessariamente o risco potencial ao assumir que um estimador linear será uma ótima opção. Eu não diria "nunca use mínimos quadrados" (eu o uso com bastante regularidade, mas tenho plena consciência do quão potencialmente pode ter um desempenho ruim) - mas o AZUL por si só não implica necessariamente que é uma boa escolha.

— Glen_b -Reinstate Monica

No caso de dados normalmente distribuídos, o OLS converge com o MLE, uma solução que é AZUL (nesse ponto). Uma vez fora do normal, o OLS não é mais AZUL (nos termos do teorema de Gauss-Markov) - isso ocorre porque o OLS procura minimizar o SSR, enquanto o GMT define o AZUL em termos de SE mínimo. Veja mais aqui .

De um modo geral, considerando que existe um MLE (procure por 'falha no MLE' ou nos casos em que o MLE não existe), é mais fácil ajustá-lo, para minimizar a variação ou torná-lo imparcial (e, portanto, comparável a outros estimadores) .

— Spätzle
fonte

A variável dependente não precisa ser normal para OLS ser azul: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem

— Great38

... além disso, com dados normalmente distribuídos, OLS = o MLE, ele não converge para ele. Seu segundo parágrafo também não é claro ... é mais fácil ajustar o MLE do que o que?

— jbowman

O OLS ainda é AZUL fora da normalidade; o problema é que o próprio AZUL (e, em particular, o L ) não é necessariamente algo útil de se ter.

— Glen_b -Reinstate Monica