Valor de corte da distância de Cook


9

Eu tenho lido a distância de Cook para identificar discrepâncias que têm alta influência em minha regressão. No estudo original de Cook, ele diz que uma taxa de corte de 1 deve ser comparável para identificar influenciadores. No entanto, vários outros estudos usam ou como ponto de corte.4n4nk1

No meu estudo, nenhum dos meus resíduos tem D superior a 1. No entanto, se eu usar como ponto de corte , existem vários dados pontos que são considerados influenciadores. Decidi testar se a remoção desses pontos de dados faria diferença na minha regressão linear geral. Todos os meus IVs mantiveram seu significado e nenhuma mudança óbvia foi aparente.4n(4149=.026)

Devo manter todos os meus pontos de dados e usar a taxa de corte de 1? Ou removê-los?


Ver Baltagi (2011) Econometrics, 5e. No capítulo 8, seção 8.1. Ele sugere outra medida derivada da distância de Cook e também verifica se há distorções / influências de obsessores influentes na matriz Var-Covar, que você também pode precisar, pois seus estimadores não mudam muito ...
SirAlex

10
Você não deve remover nenhum dado com base neste diagnóstico. Seu objetivo é ajudá-lo a pensar sobre eles e seus efeitos em sua análise.
whuber

Respostas:


5

Eu provavelmente iria com o seu modelo original com o seu conjunto de dados completo. Geralmente penso nessas coisas como facilitadoras de análises de sensibilidade. Ou seja, eles apontam para o que verificar para garantir que você não tenha um determinado resultado apenas por causa de algo estúpido. No seu caso, você tem alguns pontos potencialmente influentes, mas se você executar o modelo novamente sem eles, obterá substancialmente a mesma resposta (pelo menos no que diz respeito aos aspectos com os quais você provavelmente se importa). Em outras palavras, use o limite que desejar - você só está reequipando o modelo como uma verificação, não como a versão 'verdadeira'. Se você acha que outras pessoas estarão suficientemente preocupadas com os possíveis discrepantes, você pode relatar os dois ajustes do modelo. O que você diria é na linha de,

Aqui estão os meus resultados. Pode-se estar preocupado com o fato de esse quadro apenas surgir devido a algumas observações incomuns, mas altamente influentes. Estes são os resultados do mesmo modelo, mas sem essas observações. Não há diferenças substantivas.

Também é possível removê-los e usar o segundo modelo como resultado principal. Afinal, permanecer no conjunto de dados original equivale a uma suposição sobre quais dados pertencem ao modelo, assim como acompanhar o subconjunto. Mas é provável que as pessoas sejam muito céticas em relação aos resultados relatados porque, psicologicamente, é muito fácil alguém se convencer, sem nenhuma intenção corrupta, de seguir o conjunto de ajustes post-hoc (como deixar algumas observações) que lhes dão o resultado que eles mais esperavam ver. Sempre seguindo o conjunto de dados completo, você antecipa essa possibilidade e garante às pessoas (digamos, revisores) que não é isso que está acontecendo no seu projeto.

Outra questão aqui é que as pessoas acabam ' perseguindo a bolha '. Quando você elimina alguns discrepantes em potencial e executa seu modelo novamente, você obtém resultados que mostram observações novas e diferentes como discrepantes em potencial. Quantas iterações você deve passar? A resposta padrão para isso é que você deve permanecer com o conjunto de dados completo original e executar uma regressão robusta . Novamente, isso pode ser entendido como uma análise de sensibilidade.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.