No teste exato de Fisher: que teste seria apropriado se a senhora não soubesse o número de xícaras de leite?

No famoso experimento de chá de senhora com degustação de RA Fisher, a mulher é informada de quantos copos de leite primeiro / primeiro chá há (4 para cada um dos 8 copos). Isso respeita a suposição total marginal fixa do teste exato de Fisher.

Eu estava imaginando fazer esse teste com meu amigo, mas o pensamento me atingiu. Se a mulher puder realmente distinguir a diferença entre os copos primeiro de leite e primeiro chá, ela deve ser capaz de descobrir os totais marginais dos copos primeiro de leite / primeiro chá, bem como quais são quais.

Então, eis a questão: que teste poderia ter sido usado se RA Fisher não tivesse informado a dama do número total de xícaras com leite e chá?

— Alby
fonte

— Scortchi - Restabelecer Monica

De fato, o teste de Barnard tem uma página da Wikipedia.

— Scortchi - Reinstate Monica

@ Scortchi o que mais há a dizer? Eu não acrescentaria nada a ela (nem conseguiria dizer isso de forma tão clara e sucinta). Nos seus dois comentários, acho que você tem uma boa resposta lá.

— Glen_b -Reinstala Monica

Há alguma discussão que vale a pena examinar (entre artigos e debatedores) em Yates, F. (1984) "Testes de significância para tabelas de contingência 2 × 2", Jornal da Royal Statistical Society. Série A (Geral) , vol. 147, n. 3, pp. 426-463.

— Glen_b -Reinstate Monica

Apenas em média, mais de 4 xícaras de chá com leite e 4 sem, podemos dizer que ela tem uma probabilidade de

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

Respostas:

Alguns argumentam que, mesmo que a segunda margem não seja fixa por design, ela carrega pouca informação sobre a capacidade de discriminação de uma dama (isto é, é aproximadamente auxiliar) e deve ser condicionada. O teste incondicional exato (proposto pela primeira vez por Barnard ) é mais complicado porque é necessário calcular o valor-p máximo sobre todos os valores possíveis de um parâmetro incômodo, a probabilidade comum de Bernoulli sob a hipótese nula. Mais recentemente, foi proposto maximizar o valor de p sobre um intervalo de confiança para o parâmetro incômodo: ver Berger (1996), "Testes mais poderosos a partir de valores de p de intervalo de confiança", The American Statistician , 50 , 4; testes exatos com o tamanho correto podem ser construídos usando essa ideia.

O Teste Exato de Fisher também surge como um teste de randomização, no sentido de Edgington: uma atribuição aleatória dos tratamentos experimentais permite que a distribuição da estatística do teste sobre permutações dessas atribuições seja usada para testar a hipótese nula. Nesta abordagem, as determinações da dama são consideradas fixas (e os totais marginais das xícaras de leite em primeiro lugar e de chá em primeiro lugar são naturalmente preservados por permutação).

— Scortchi - Restabelecer Monica
fonte

Pode Barnard::barnardw.test()ser usado aqui? Que diferença na complexidade computacional pode ser esperada na prática?

— Krlmlr

Não estou familiarizado com esse pacote, mas a página de ajuda que você vincula faz referência exatamente ao teste que eu estava falando. Veja também Exact. Quanto à complexidade computacional, eu não sei - vai depender do algoritmo de maximização usado.

— Scortchi - Restabelece Monica

Hoje, li os primeiros capítulos de "O projeto de experimentos", de RA Fisher, e um dos parágrafos me fez perceber a falha fundamental em minha pergunta.

Ou seja, mesmo que a senhora possa realmente dizer a diferença entre as primeiras xícaras de leite e de chá , nunca posso provar que ela tem essa capacidade "por qualquer quantidade finita de experimentação". Por esse motivo, como experimentadora, devo começar com a suposição de que ela não tem uma habilidade (hipótese nula) e tentar desaprovar isso. E o desenho original da experiência (teste exato de Fisher) é um procedimento suficiente, eficiente e justificável para fazer isso.

Aqui está o trecho de "The Design of Experiments", de RA Fisher:

Pode-se argumentar que, se um experimento pode refutar a hipótese de que o sujeito não possui discriminação sensorial entre dois tipos diferentes de objetos, deve, portanto, ser capaz de provar a hipótese oposta, de que ele pode fazer alguma discriminação. Mas essa última hipótese, por mais razoável ou verdadeira que seja, é inelegível como hipótese nula a ser testada por experimento, porque é inexata. Se fosse afirmado que o sujeito nunca estaria errado em seus julgamentos, temos novamente uma hipótese exata, e é fácil ver que essa hipótese poderia ser refutada por uma única falha, mas nunca poderia ser provada por uma quantidade finita de experimentação. .

— Alby
fonte

O teste de Barnard é usado quando o parâmetro incômodo é desconhecido sob a hipótese nula.

No entanto, no teste de degustação de mulheres, você pode argumentar que o parâmetro incômodo pode ser definido em 0,5 sob a hipótese nula (a mulher desinformada tem 50% de probabilidade de adivinhar corretamente um copo).

Então, o número de suposições corretas, sob a hipótese nula, torna-se uma distribuição binomial: adivinhando 8 xícaras com 50% de probabilidade para cada xícara.

Em outras ocasiões, você pode não ter essa probabilidade trivial de 50% para a hipótese nula. E sem margens fixas, você pode não saber qual deve ser essa probabilidade. Nesse caso, você precisa do teste de Barnard.

Mesmo se você fizesse o teste de Barnard no teste de degustação de mulheres, ele se tornaria 50% de qualquer maneira (se o resultado for de suposições corretas), já que o parâmetro incômodo com o maior valor de p é 0,5 e resultaria no teste binomial trivial ( na verdade, é a combinação de dois testes binomiais, um para os quatro primeiros copos de leite e um para os quatro primeiros copos de leite).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Abaixo está como isso resultaria em um resultado mais complicado (se nem todas as estimativas estiverem corretas, por exemplo, 2 versus 4), a contagem do que é e do que não é extremo se torna um pouco mais difícil.

(Observe também que o teste de Barnard usa, no caso de um resultado de 4-2, um parâmetro incômodo p = 0,686 que você poderia argumentar que não está correto, o valor de p para 50% de probabilidade de responder 'primeiro ao chá' seria 0,08203125. Isso se torna ainda menor quando você considera uma região diferente, em vez da região baseada na estatística de Wald, embora definir a região não seja tão fácil )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)

— Sextus Empiricus
fonte