O trecho a seguir é do Hedge Fund Market Wizzards da Schwager (maio de 2012), uma entrevista com o sempre bem-sucedido gerente de fundos de hedge Jaffray Woodriff:
Para a pergunta: "Quais são alguns dos piores erros que as pessoas cometem na mineração de dados?":
Muitas pessoas pensam que estão bem porque usam dados dentro da amostra para treinamento e dados fora da amostra para teste. Depois, eles classificam os modelos com base no desempenho dos dados dentro da amostra e escolhem os melhores para testar os dados fora da amostra. A tendência humana é pegar os modelos que continuam se saindo bem nos dados fora da amostra e escolher esses modelos para negociação. Esse tipo de processo simplesmente transforma os dados fora da amostra em parte dos dados de treinamento, porque seleciona os modelos que tiveram melhor desempenho no período fora da amostra. É um dos erros mais comuns que as pessoas cometem e uma das razões pelas quais a mineração de dados, como normalmente é aplicada, produz resultados terríveis.
O entrevistador pergunta: "O que você deveria fazer em vez disso?":
Você pode procurar padrões nos quais, em média, todos os modelos fora da amostra continuam a funcionar bem. Você sabe que está indo bem se a média dos modelos fora da amostra for uma porcentagem significativa da pontuação dentro da amostra. De um modo geral, você realmente está chegando a algum lugar se os resultados fora da amostra forem mais de 50% da amostra. O modelo de negócios da QIM nunca teria funcionado se o SAS e a IBM estivessem construindo um ótimo software de modelagem preditiva.
Minhas perguntas
Isso faz algum sentido? O que ele quer dizer? Você tem uma pista - ou talvez um nome para o método proposto e algumas referências? Ou esse cara encontrou o Santo Graal que ninguém mais entende? Ele até diz nesta entrevista que seu método poderia potencialmente revolucionar a ciência ...