Pergunta interessante. Esta não é realmente uma resposta, mas é muito tempo para ser um comentário.
Eu acho que seu projeto experimental é desafiado por estas razões:
1) Isso não reflete a maneira como a seleção de estoque é realmente avaliada no “mundo real”. Como exemplo extremo, suponha que o selecionador de ações A tenha escolhido 1 ação que subiu 1000% e 9 que caíram 1%, e o selecionador de ações B escolheu 10 ações que subiram 1%. Se essas ações foram realmente usadas para construir um índice, então claramente A seria o melhor desempenho, mas B seria muito melhor em seu experimento. Um desafio mais interessante financeiramente seria construir um portfólio e comparar seu desempenho com o do S&P 500. Por sua vez, existe um mecanismo comumente usado para avaliar esse desempenho: basta fazer uma regressão linear dos retornos diários do portfólio contra os da S&P. O termo de interceptação (geralmente chamado de "alfa") mede o desempenho médio "acima e acima do mercado". Como é um coeficiente de uma regressão linear, é uma questão trivial construir um intervalo de confiança de 95%, se você escolher. Em seguida, compare isso com as taxas que o banco cobraria por esse serviço.
2) Desconsiderando 1, como parece que vocês dois já concordaram com a forma do experimento, considere como isso pode ser feito. Suponha que eu tenha um oráculo mágico que me diga a probabilidade de cada ação estar acima do preço atual daqui a um mês (digamos). Então eu poderia simplesmente escolher as n ações com as maiores probabilidades, e provavelmente mais de 50% delas realmente subiriam. Agora, essas probabilidades são codificadas (imperfeitamente) em vários preços de opções. Por exemplo, posso comprar a chamada "opção binária", que é basicamente uma aposta no evento "O estoque X estará acima do preço Y na data Z". O preço de tal implica uma probabilidade desse evento (embora a data mais próxima de Z seja a atual, menos confiável será). Como seguir cegamente a “sabedoria das multidões” não requer nenhum conhecimento específico, Eu argumentaria que o desempenho de uma estratégia como essa deve ser considerado "nível de chance" para seu experimento específico. Como alternativa, você apresenta a ela uma lista de ações de sua escolha e pede que ela indique se ela acha que cada uma delas será positiva ou negativa, juntamente com sua confiança em cada previsão. Em seguida, agrupe todas as respostas por nível de confiança e veja quão estreitamente elas se alinham (ou seja, aquelas ações em que ela estava 90% confiante, ela previu corretamente 90% delas?). Existe uma maneira padrão de quantificar isso; não me lembro de imediato como é chamado, mas você pode ler sobre isso em Superforecasters por Phil Tetlock. e peça-lhe que indique se acha que cada um será alto ou baixo, juntamente com sua confiança em cada previsão. Em seguida, agrupe todas as respostas por nível de confiança e veja quão estreitamente elas se alinham (ou seja, aquelas ações em que ela estava 90% confiante, ela previu corretamente 90% delas?). Existe uma maneira padrão de quantificar isso; não me lembro de imediato como é chamado, mas você pode ler sobre isso em Superforecasters por Phil Tetlock. e peça-lhe que indique se acha que cada um será alto ou baixo, juntamente com sua confiança em cada previsão. Em seguida, agrupe todas as respostas por nível de confiança e veja quão estreitamente elas se alinham (ou seja, aquelas ações em que ela estava 90% confiante, ela previu corretamente 90% delas?). Existe uma maneira padrão de quantificar isso; não me lembro de imediato como é chamado, mas você pode ler sobre isso em Superforecasters por Phil Tetlock.