Residual influente x outlier

Primeiro, devo declarar que procurei neste site a resposta. Também não encontrei uma pergunta que respondesse à minha pergunta ou meu nível de conhecimento é tão baixo que não percebi que já tinha lido a resposta.

Estou estudando para o exame de estatística da AP. Eu tenho que aprender regressão linear e um dos tópicos é resíduos. Eu tenho uma cópia de Introdução à estatística e análise de dados na página 253 que ela declara.

Pontos incomuns em um conjunto de dados bivariados são aqueles que se afastam da maioria dos outros pontos no gráfico de dispersão na direção ou na direção $x$ $y$

Uma observação é potencialmente uma observação influente se tiver um valor muito distante do restante dos dados (separado do restante na direção ). Para determinar se a observação é de fato influente, avaliamos se a remoção dessa observação tem um grande impacto no valor da inclinação ou na interceptação da linha do quadrado mínimo. $x$ $x$

Uma observação é uma excepção se tiver um resíduo grande. A observação externa se distancia da linha menos quadrada na direção . $y$

Stattreck.com declara quatro métodos para determinar um outlier de resíduos:

Os pontos de dados que divergem em grande parte do padrão geral são chamados de discrepantes. Há quatro maneiras pelas quais um ponto de dados pode ser considerado um erro externo.

Poderia ter um valor X extremo em comparação com outros pontos de dados.

Poderia ter um valor extremo de Y em comparação com outros pontos de dados.

Poderia ter valores extremos de X e Y.

Pode estar distante do restante dos dados, mesmo sem valores extremos de X ou Y.

Essas duas fontes parecem entrar em conflito. Alguém poderia ajudar a esclarecer minha confusão. Além disso, como se define extremo. O AP Statistics usa a regra se o ponto de dados estiver fora de (Q1-1.5IQR, Q3 + 1.5IQR) do que é um erro externo. Não sei como aplicar isso a partir de apenas um gráfico dos resíduos.

regression outliers residuals

— MaoYiyi
fonte

Respostas:

O site stattrek parece ter uma descrição muito melhor dos valores discrepantes e influentes do que o seu livro, mas você citou apenas uma pequena passagem que pode ser enganosa. Eu não tenho esse livro em particular, então não posso examiná-lo em contexto. Lembre-se, porém, que a passagem do livro que você citou diz "potencialmente". Também não é exclusivo. Tendo esses pontos em mente, o stattrek e seu livro não necessariamente discordam. Mas parece que o seu livro é enganoso no sentido em que implica (a partir desta curta passagem) que a única diferença entre valores extremos e pontos influentes é se eles se desviam no eixo x ou y. Isso está incorreto.

A "regra" para discrepantes varia de acordo com o contexto. A regra que você cita é apenas uma regra prática e, sim, não é realmente projetada para regressão. Existem algumas maneiras de usá-lo. Pode ser mais fácil visualizar se você imaginar vários valores y em cada x e examinar os resíduos. Exemplos típicos de regressão de livros didáticos são muito simples para ver como essa regra pode funcionar, e na maioria dos casos reais é inútil. Felizmente, na vida real, você coleta muito mais dados. Se for necessário que você esteja aplicando a regra quantil para discrepantes a um problema de regressão, eles deverão fornecer dados para os quais é apropriado.

— John
fonte

Obrigado pela resposta, é irritante que livros diferentes tentem declarar essas regras sem realmente dizer que depende honestamente dos dados, como você está dizendo.

— MaoYiyi

Na verdade, eu declarei errado também ... depende de teoria, método e dados ... todo o estudo.

— John

Eu concordo com o John. Aqui estão mais alguns pontos. Uma observação influente é (estritamente) aquela que influencia as estimativas de parâmetros. Um pequeno desvio no valor Y gera uma grande alteração nos parâmetros beta estimados. Na regressão simples de 1 variável contra outra, variáveis influentes são precisamente aquelas cujo valor X está distante da média dos X's. Na regressão múltipla (várias variáveis independentes), a situação é mais complexa. Você deve observar a diagonal da chamada matriz de chapéu , e o software de regressão fornecerá isso a você. Google "alavancagem". $X(X'X)^{-1}X'$

A influência é uma função dos pontos de design (os valores X), como afirma o seu livro.

Observe que influência é poder. Em um experimento projetado, você deseja valores X influentes, supondo que você possa medir o valor Y correspondente com precisão. Você ganha mais dinheiro por isso.

Para mim, um erro externo é basicamente um erro - ou seja, uma observação que não segue o mesmo modelo que o restante dos dados. Isso pode ocorrer devido a um erro de coleta de dados ou porque esse assunto em particular era incomum de alguma forma.

Não gosto muito da definição de stattrek de outlier por várias razões. A regressão não é simétrica em Y e X. Y é modelado como uma variável aleatória e os X são assumidos como fixos e conhecidos. Estranho nos Y's não é o mesmo que estranhos nos X's. Influência e outliership significam coisas diferentes. A influência, na regressão múltipla, não é detectada observando parcelas residuais. Uma boa descrição de valores discrepantes e influência para o caso de variável única deve configurá-lo para entender também o caso múltiplo.

Não gosto mais do seu livro pelas razões apontadas por John.

Bottom line, outliers influentes são perigosos. Eles precisam ser examinados de perto e tratados.

— Placidia
fonte

Você não gosta da explicação da regressão stattrek é apropriado se você vier de um contexto em que os experimentos verdadeiros são a norma. Todas as suas razões se aplicam lá. Mas se você vem de um cenário em que projetos quase experimentais são mais comuns, o site stattrek tem mais relevância. Nesses casos, os valores xey são frequentemente apenas amostras aleatórias.

— John John

@ John, que tal o histórico de querer passar no exame de estatística da AP? O que é desenho quase experimental? Isso está usando uma tabela de números aleatórios para uma simulação?

— precisa saber é

Não sei nada sobre o exame de estatística da AP. Experimentos verdadeiros são aqueles em que você manipula a variável preditora e cria grupos para testar várias hipóteses ou grupos experimentais e de controle etc. Os projetos quase-experimentais são praticamente qualquer outra coisa que se pareça com um experimento. Então, imagine uma regressão em que o valor de x seja peso e o valor de y seja alguma habilidade esportiva. Você não manipula nenhuma variável, você experimenta as duas aleatoriamente. Assim, as críticas de Placidia ao stattrek são bastante válidas para experimentos verdadeiros, mas não tanto quanto para quase.

— João

@ John ... Eu venho de um contexto em que experimentos projetados são vistos como o padrão-ouro. Na prática, eu sei que X e Y são frequentemente amostras aleatórias, o que levanta a questão de por que a regressão está sendo usada, e não alguma forma de análise de variáveis latentes.

— Placidia

Quando você tem apenas duas variáveis ... :) Às vezes, você tem uma boa teoria para sugerir uma coisa que prediz outra, por exemplo, altura e probabilidade de entrar na NBA ... ambas as amostras aleatórias. Nos casos com uma ou poucas relações lineares (especialmente não correlacionadas), a regressão é boa.

— John