Significado preciso e comparação entre ponto influente, ponto alto de alavancagem e outlier?


15

Da Wikipedia

Observações influentes são aquelas que têm um efeito relativamente grande nas previsões do modelo de regressão.

Da Wikipedia

Pontos de alavancagem são aquelas observações, se houver, feitas em valores extremos ou extremos das variáveis ​​independentes, de modo que a falta de observações vizinhas significa que o modelo de regressão ajustado passará perto dessa observação específica.

Por que a seguinte comparação da Wikipedia

Embora um ponto influente tenha tipicamente alta alavancagem , um ponto alto de alavancagem não é necessariamente um ponto influente .


2
As respostas abaixo são boas. Também pode ajudar a ler minha resposta aqui: Interpretando plot.lm () .
gung - Restabelece Monica

Respostas:


13

Imagine qualquer linha de regressão ajustada a alguns dados.

Agora imagine um ponto de dados extra, um pouco distante do corpo principal dos dados, mas que fica em algum lugar ao longo dessa linha de regressão.

Se a linha de regressão fosse reajustada, os coeficientes não mudariam. Por outro lado, excluir o outlier extra não teria influência sobre os coeficientes.

Portanto, um ponto externo ou de alavancagem não terá influência se for perfeitamente consistente com o restante dos dados e o modelo que o restante implica.

Para "linha", leia "plano" ou "hiperplano", se desejado, mas o exemplo mais simples de duas variáveis ​​e um gráfico de dispersão é suficiente aqui.

No entanto, como você gosta de definições - muitas vezes, ao que parece, tendem a ler muito nelas -, eis a minha definição favorita de discrepantes:

"Outliers são valores amostrais que causam surpresa em relação à maioria da amostra" (WN Venables e BD Ripley. 2002. Estatísticas modernas aplicadas com S. New York: Springer, p.119).

Fundamentalmente, a surpresa está na mente de quem vê e depende de algum modelo tácito ou explícito dos dados. Pode haver outro modelo sob o qual o discrepante não surpreenda, digamos, se os dados realmente são lognormal ou gama, em vez de normais.

PS: Eu não acho que esses pontos de influência necessariamente carecem de observações vizinhas. Por exemplo, eles podem ocorrer em pares.


Obrigado! Outliers e pontos de alta alavancagem são o mesmo conceito? Note-se que "A alavancagem é normalmente definida como a diagonal da matriz chapéu" de en.wikipedia.org/wiki/Partial_leverage
Stackexchange para Todos

11
Não; você não nos mostrou uma definição de "outlier", mas decorre da definição de pontos de alavancagem que eles não precisam ser outliers sensu Venables e Ripley. (Eu recomendo tentar se afastar da Wikipedia.) Veja também a resposta de @ Gael.
27613 Nick Cox

11
"Crucialmente, a surpresa está na mente de quem vê e depende de algum modelo tácito ou explícito dos dados. Pode haver outro modelo em que o discrepante não surpreenda nada, digamos se os dados são realmente logormais ou gama, em vez de normal." Então, os valores extremos são definidos em algum modelo, enquanto os pontos altos de alavancagem e os pontos influentes não são?
StackExchange for All

11
Venables e Ripley estavam, como eu li, fazendo um argumento inteligente de uma maneira espirituosa e subvertendo a idéia ingênua de que valores extremos podem ser definidos por declarações formais e exatas. Mas outros tratamentos podem ser encontrados em diferentes estilos. Por outro lado, alavancagem e influência podem ser definidas formalmente em termos de maneiras de medi-las. Os dois estilos de uso da terminologia não são realmente consistentes. Para ter uma idéia melhor do que são ou não, os discrepantes, a experiência da análise de dados real ensina mais do que a leitura de entradas da enciclopédia.
27613 Nick Cox

Gael se referiu ao comentário em 29 de julho de 2013 agora está usando o identificador @Gala. No momento em que escrevo, há apenas uma outra resposta, mas isso pode mudar.
Nick Cox

20

É fácil ilustrar como um ponto de alavancagem alto pode não ter influência no caso de um modelo linear simples:

Alavancagem alta, mas não muito influente

A linha azul é uma linha de regressão baseada em todos os dados; a linha vermelha ignora o ponto no canto superior direito do gráfico.

Esse ponto se encaixa na definição de um ponto de alta alavancagem que você acabou de fornecer, pois está longe do restante dos dados. Por isso, a linha de regressão (a azul) precisa passar perto dela. Mas como sua posição se encaixa amplamente no padrão observado no restante dos dados, o outro modelo o preveria muito bem (isto é, a linha vermelha já passa perto dela em qualquer caso) e, portanto, não é particularmente influente.

Compare isso com o seguinte gráfico de dispersão:

Ponto altamente influente de alta alavancagem

Aqui, o ponto à direita do gráfico ainda é um ponto de alavancagem alto, mas desta vez não se encaixa realmente no padrão observado no restante dos dados. A linha azul (o ajuste linear com base em todos os dados) passa muito perto, mas a linha vermelha não. A inclusão ou exclusão desse ponto altera as estimativas de parâmetros de maneira dramática: ele tem muita influência.

Observe que as definições que você citou e os exemplos que acabei de dar podem parecer implicar que altos pontos de influência / alavancagem são, em certo sentido, "outliers" univariados e que a linha de regressão ajustada passará perto de pontos com a maior influência, mas precisa não seja o caso.

Oculto ponto altamente influente

Neste último exemplo, a observação no canto inferior direito tem um efeito (relativamente) grande no ajuste do modelo (visível novamente pela diferença entre as linhas vermelha e azul), mas ainda parece estar longe da linha de regressão sendo indetectável em distribuições univariadas (representadas aqui pelos "tapetes" ao longo dos eixos).


Obrigado! O ponto alto de alavancagem que usamos aqui é consistente com "a alavancagem é normalmente definida como a diagonal da matriz do chapéu" em en.wikipedia.org/wiki/Partial_leverage ?
StackExchange for All

Excelente explicação. Apreciaria muito se você também fornecesse os dados para todos os três casos. Obrigado #
MYaseen208
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.