Digamos que eu tenho um amigo (vamos chamá-lo de "George") que diz que ele pode controlar o lançamento de dados usando sua mente (ou seja, aumentar a probabilidade de os dados caírem em um número específico em que ele está pensando).
Como posso projetar um teste cientificamente rigoroso para determinar se ele realmente pode fazer isso? (Eu realmente não acho que ele possa, é claro, mas quero que ele concorde com os detalhes de um teste, estilo Randi incrível, antes do início do teste.) Quero reduzir as (muito provavelmente) desculpas pós-teste que ele vai inventar.
Aqui está o que eu tenho até agora:
Determinar a técnica física de rolagem de dados (que dados, shaker cup, superfície de pouso, etc.)
Defina uma "sessão de teste", consistindo em X jogadas dos dados. Isso precisa ser pequeno o suficiente para ser feito em uma sessão, mas grande o suficiente para determinar (após análise) entre 95% e 99% de confiança se os dados caíram justos ou favoreceram um lado
Execute sessões Y nos dados escolhidos (sem a influência de George), como um "controle" para garantir que os dados mostrem resultados "justos" por conta própria
Execute sessões Z com George. Antes de cada um, jogue um dado separado para determinar em que número George "se concentrará" durante toda a sessão.
Compile e analise os resultados.
George inventa algumas desculpas por sua performance sombria.
Então, minhas perguntas para você:
Alguma falha ou problema com minha metodologia geral? Qualquer coisa que George provavelmente se oporia?
Devo usar um D6? Ou um D20? Isso importa? Um dado com mais faces exigiria mais testes para produzir resultados igualmente confiáveis? Ou o contrário? Eu preferiria menos rolos do que mais, devido a considerações práticas :)
Quais são os valores razoáveis para X , Y e Z ? Eles não são totalmente independentes; se meu valor escolhido de X permitir apenas 95% de confiança para uma única sessão, 1 em cada 20 sessões poderá "falhar", mesmo sem a influência de George
Como eu defino "sucesso" ou "falha" para uma sessão individual? (Encontrei essa pergunta que aborda os detalhes de um teste qui-quadrado, então acho que essa é minha metodologia de avaliação, mas quais são os limites razoáveis de confiança?)
Como defino "sucesso" ou "falha" para o teste geral? George pode "vencer" uma única sessão por mero acaso, mas quantas das sessões Z ele teria que passar para passar no teste inteiro?
Provavelmente analisarei esses resultados em uma planilha do MS Excel, se isso fizer alguma diferença.