Criando um teste para um médium que diz que pode influenciar a rolagem de dados

Digamos que eu tenho um amigo (vamos chamá-lo de "George") que diz que ele pode controlar o lançamento de dados usando sua mente (ou seja, aumentar a probabilidade de os dados caírem em um número específico em que ele está pensando).

Como posso projetar um teste cientificamente rigoroso para determinar se ele realmente pode fazer isso? (Eu realmente não acho que ele possa, é claro, mas quero que ele concorde com os detalhes de um teste, estilo Randi incrível, antes do início do teste.) Quero reduzir as (muito provavelmente) desculpas pós-teste que ele vai inventar.

Aqui está o que eu tenho até agora:

Determinar a técnica física de rolagem de dados (que dados, shaker cup, superfície de pouso, etc.)
Defina uma "sessão de teste", consistindo em X jogadas dos dados. Isso precisa ser pequeno o suficiente para ser feito em uma sessão, mas grande o suficiente para determinar (após análise) entre 95% e 99% de confiança se os dados caíram justos ou favoreceram um lado
Execute sessões Y nos dados escolhidos (sem a influência de George), como um "controle" para garantir que os dados mostrem resultados "justos" por conta própria
Execute sessões Z com George. Antes de cada um, jogue um dado separado para determinar em que número George "se concentrará" durante toda a sessão.
Compile e analise os resultados.
George inventa algumas desculpas por sua performance sombria.

Então, minhas perguntas para você:

Alguma falha ou problema com minha metodologia geral? Qualquer coisa que George provavelmente se oporia?
Devo usar um D6? Ou um D20? Isso importa? Um dado com mais faces exigiria mais testes para produzir resultados igualmente confiáveis? Ou o contrário? Eu preferiria menos rolos do que mais, devido a considerações práticas :)
Quais são os valores razoáveis para X , Y e Z ? Eles não são totalmente independentes; se meu valor escolhido de X permitir apenas 95% de confiança para uma única sessão, 1 em cada 20 sessões poderá "falhar", mesmo sem a influência de George
Como eu defino "sucesso" ou "falha" para uma sessão individual? (Encontrei essa pergunta que aborda os detalhes de um teste qui-quadrado, então acho que essa é minha metodologia de avaliação, mas quais são os limites razoáveis de confiança?)
Como defino "sucesso" ou "falha" para o teste geral? George pode "vencer" uma única sessão por mero acaso, mas quantas das sessões Z ele teria que passar para passar no teste inteiro?

Provavelmente analisarei esses resultados em uma planilha do MS Excel, se isso fizer alguma diferença.

probability experiment-design dice

— BradC
fonte

Se ele está apenas manipulando os dados com sua mente, alguém deve jogá-los. Eu acho que coisas como D6 ou D20 devem ser deixadas para George. Que tipo de manipulação George disse que poderia fazer? Ele disse que poderia fazer um número específico que desejasse? Nesse caso, sucessos seriam instâncias desse número, enquanto falhas seriam qualquer outra coisa.

— John John

@ John - Ele apenas afirmou que pode fazer com que esse número suba com mais frequência do que seria de outra forma, não que ele sempre suba esse número.

— BradC

(Originalmente pediu uma versão desta questão na math.stackexchange.com/q/57624/14626 )

— BradC

suas respostas sobre matemática de Michael Hardy e TonyK são boas.

— John

Eu não ficaria satisfeito com um nível de confiança tão baixo quanto 95% ou mesmo 99%; reivindicações extraordinárias tendem a exigir evidências extraordinárias. Ou, para colocá-lo em um contexto mais bayesiano, minha crença anterior de que ele tem essa capacidade é tão baixa que eu exigiria uma quantidade ridícula de evidência para alterar significativamente minha crença posterior.

— Michael McGowan

Respostas:

Eu recomendaria analisar isso da seguinte maneira:

Conte cada papel em que George predisse com êxito o resultado como um sucesso e todos os outros como um fracasso. Então, você calcula facilmente uma probabilidade de sucesso para George e um intervalo de confiança de 95% ou 99%. Ele afirma que pode prever o resultado "duas vezes mais" do que jogar aleatoriamente os dados? Então:

H0: p> = 1/3

H1: p <1/3

(assumindo um dado de 6 lados).

A partir daí, é bastante simples fazer o teste de hipóteses. Além disso, você pode calcular a potência a priori com bastante facilidade (mesmo em algo como o Excel). Escolha um número de rolos (como 10) e faça uma tabela com os sucessos possíveis como linhas (0-10). Então, para cada sucesso, calcule a probabilidade de ele ter tantos sucessos (se ele estiver apenas adivinhando, que é o que estamos assumindo que ele esteja fazendo). Além disso, para cada valor, determine se isso levaria a uma rejeição ou aceitação do nulo. Então, para encontrar o poder, você pode simplesmente adicionar todas as probabilidades em que o nulo seria rejeitado.

— random_forest_fanatic
fonte

Um D20 exigirá mais testes para o mesmo nível de significância para George ter sucesso, com certeza, se você precisar executar o teste do qui-quadrado. Eu não acho que você precise executar o teste do quadrado inteiro. Você só precisa verificar se os dados rolam o número "escolhido" com mais frequência do que o acaso. Eu usaria apenas o cdf do binomial para calcular o valor p de rolar o número escolhido com mais frequência do que o acaso com como o parâmetro binomial para D6. Eu acho que é fácil determinar o número com base no valor-p necessário para o sucesso de George. Eu nem tenho certeza de que você precisa de sessões Z. Por que não apenas executar uma sessão para cada lado do dado. A randomização do lado escolhido é importante para as hipóteses em que você está interessado? $\theta=\frac{1}{6}$ $X$

— alta largura de banda
fonte

A randomização do lado escolhido provavelmente não importa, eu estava apenas preocupado com A) Contabilizando qualquer possível viés verdadeiro nos dados e B) Certificando-me de que uma única sessão anômala (que 1 em 20 devido à verdadeira aleatoriedade de que falei) não seja tomado como uma confirmação de sua capacidade psíquica. Provavelmente 6 sessões, uma para cada número, seriam suficientes, desde que meu X (e nível de confiança) seja alto o suficiente.

— BradC