A ideia da análise adaptativa dos dados é que você altere seu plano para analisar os dados à medida que aprende mais sobre eles. No caso da análise exploratória de dados (EDA), geralmente é uma boa ideia (você geralmente procura padrões imprevistos nos dados), mas, para um estudo confirmatório, isso é amplamente aceito como um método de análise muito defeituoso (a menos que todos as etapas são claramente definidas e adequadamente planejadas em avançado).
Dito isto, a análise adaptativa dos dados é tipicamente quantos pesquisadores realmente conduzem suas análises, para grande consternação dos estatísticos. Como tal, se alguém pudesse fazer isso de uma maneira estatística válida, isso revolucionaria a prática estatística.
O seguinte artigo da Science afirma ter encontrado um método para fazer isso (peço desculpas pelo paywall, mas se você estiver em uma universidade, provavelmente terá acesso): Dwork et al, 2015, O material reutilizável: Preservando a validade na análise de dados adaptativa .
Pessoalmente, sempre fui cético em relação a artigos de estatística publicados na Science , e este não é diferente. De fato, depois de ler o artigo duas vezes, incluindo o material suplementar, não consigo entender (de maneira alguma) por que os autores afirmam que seu método impede o excesso de ajuste.
Meu entendimento é que eles têm um conjunto de dados de validação, que serão reutilizados. Eles parecem reivindicar "distorcendo" a saída da análise confirmatória no conjunto de dados de validação; o excesso de ajuste será impedido (vale a pena notar que a distorção parece estar apenas adicionando ruído se a estatística calculada nos dados de treinamento estiver suficientemente longe da estatística calculada nos dados de validação ). Até onde eu sei, não há nenhuma razão real para impedir o ajuste excessivo.
Estou enganado sobre o que os autores estão propondo? Existe algum efeito sutil que estou ignorando? Ou a Science endossou a pior prática estatística até o momento?