Em Kahneman e Deaton (2010) † , os autores escrevem o seguinte:
Essa regressão explica 37% da variância, com um erro quadrático médio da raiz (RMSE) de 0,67852. Para eliminar discrepâncias e relatórios de renda implausíveis, retiramos observações nas quais o valor absoluto da diferença entre a receita logarítmica e sua previsão excedeu 2,5 vezes o RMSE.
Isso é prática comum? Qual é a intuição por trás disso? Parece um pouco estranho definir um outlier com base em um modelo que pode não ser bem especificado em primeiro lugar. A determinação de discrepantes não deveria se basear em alguns fundamentos teóricos do que constitui um valor plausível, e não em quão bem o seu modelo prevê os valores reais?
: Daniel Kahneman, Angus Deaton (2010): High income improves evaluation of life but not emotional well-being. Proceedings of the National Academy of Sciences Sep 2010, 107 (38) 16489-16493; DOI: 10.1073/pnas.1011492107