Vou fazer engenharia reversa disso por experiência com casos de discriminação. Definitivamente, posso estabelecer de onde vieram os valores de "um em 741" etc. No entanto, tanta informação foi perdida na tradução que o resto da minha reconstrução depende de ter visto como as pessoas fazem estatísticas nas configurações da sala de audiências. Só posso adivinhar alguns detalhes.
Desde o momento em que as leis antidiscriminação foram aprovadas na década de 1960 (título VI), os tribunais dos Estados Unidos aprenderam a examinar os valores de p e compará-los aos limiares de e 0,01 . Eles também aprenderam a observar os efeitos padronizados, geralmente chamados de "desvios padrão", e compará-los com um limiar de "dois a três desvios padrão". Para estabelecer um caso prima facie para um processo de discriminação, os autores normalmente tentam um cálculo estatístico mostrando um "impacto díspar" que excede esses limites. Se esse cálculo não puder ser suportado, o caso geralmente não pode avançar.0.050.01
Especialistas em estatística para demandantes geralmente tentam expressar seus resultados nesses termos familiares. Alguns especialistas conduzem um teste estatístico no qual a hipótese nula não expressa "nenhum impacto adverso", assumindo que as decisões de emprego eram puramente aleatórias e não governadas por outras características dos funcionários. (Se é uma alternativa bicaudal ou bicaudal, pode depender do especialista e das circunstâncias.) Eles convertem o valor p deste teste em vários "desvios padrão", referindo-o à distribuição normal padrão- - mesmo quando o Normal padrão é irrelevante para o teste original. Dessa maneira indireta, eles esperam comunicar claramente suas conclusões ao juiz.
O teste preferido para dados que podem ser resumidos em tabelas de contingência é o Teste exato de Fisher. A ocorrência de "Exato" em seu nome é particularmente agradável para os autores, pois conota uma determinação estatística que foi feita sem erro (seja lá o que for!).
Aqui está, então, a minha (reconstrução especulativa) dos cálculos do Departamento do Trabalho.
Eles executaram o Teste Exato de Fisher, ou algo parecido (como um teste do com um valor-p determinado por meio de randomização). Este teste assume uma distribuição hipergeométrica, conforme descrito na resposta de Matthew Gunn. (Para o pequeno número de pessoas envolvidas nesta queixa, a distribuição hipergeométrica não é bem aproximada por uma distribuição Normal.)χ2
Eles converteram seu valor-p em um escore Z normal ("número de desvios padrão").
Eles arredondaram a pontuação Z para o número inteiro mais próximo: "excede três desvios padrão", "excede cinco desvios padrão" e "excede seis desvios padrão". (Porque alguns desses escores-Z virou a até a desvios mais padrão, não posso justificar o "excede"; tudo o que posso fazer é citá-lo.)
Na denúncia, esses escores Z integrais foram convertidos de volta para valores-p! Novamente foi utilizada a distribuição normal padrão.
Esses valores p são descritos (sem dúvida de maneira enganosa) como "a probabilidade de que esse resultado ocorra de acordo com o acaso".
1/12801/5650001/5800000073011601307301160130−3.16−4.64−5.521/7411/35000001/1000000000
Aqui está um R
código usado para executar esses cálculos.
f <- function(total, percent.asian, hired.asian, hired.non.asian) {
asian <- round(percent.asian/100 * total)
non.asian <- total-asian
x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
nrow = 2,
dimnames=list(Race=c("Asian", "non-Asian"),
Status=c("Not hired", "Hired")))
s <- fisher.test(x)
s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))