Eu provavelmente iria com o seu modelo original com o seu conjunto de dados completo. Geralmente penso nessas coisas como facilitadoras de análises de sensibilidade. Ou seja, eles apontam para o que verificar para garantir que você não tenha um determinado resultado apenas por causa de algo estúpido. No seu caso, você tem alguns pontos potencialmente influentes, mas se você executar o modelo novamente sem eles, obterá substancialmente a mesma resposta (pelo menos no que diz respeito aos aspectos com os quais você provavelmente se importa). Em outras palavras, use o limite que desejar - você só está reequipando o modelo como uma verificação, não como a versão 'verdadeira'. Se você acha que outras pessoas estarão suficientemente preocupadas com os possíveis discrepantes, você pode relatar os dois ajustes do modelo. O que você diria é na linha de,
Aqui estão os meus resultados. Pode-se estar preocupado com o fato de esse quadro apenas surgir devido a algumas observações incomuns, mas altamente influentes. Estes são os resultados do mesmo modelo, mas sem essas observações. Não há diferenças substantivas.
Também é possível removê-los e usar o segundo modelo como resultado principal. Afinal, permanecer no conjunto de dados original equivale a uma suposição sobre quais dados pertencem ao modelo, assim como acompanhar o subconjunto. Mas é provável que as pessoas sejam muito céticas em relação aos resultados relatados porque, psicologicamente, é muito fácil alguém se convencer, sem nenhuma intenção corrupta, de seguir o conjunto de ajustes post-hoc (como deixar algumas observações) que lhes dão o resultado que eles mais esperavam ver. Sempre seguindo o conjunto de dados completo, você antecipa essa possibilidade e garante às pessoas (digamos, revisores) que não é isso que está acontecendo no seu projeto.
Outra questão aqui é que as pessoas acabam ' perseguindo a bolha '. Quando você elimina alguns discrepantes em potencial e executa seu modelo novamente, você obtém resultados que mostram observações novas e diferentes como discrepantes em potencial. Quantas iterações você deve passar? A resposta padrão para isso é que você deve permanecer com o conjunto de dados completo original e executar uma regressão robusta . Novamente, isso pode ser entendido como uma análise de sensibilidade.