Caso de discriminação asiática de Palantir: como foram calculadas as probabilidades?

Li este artigo sobre o caso de Palantir, em que o Departamento de Trabalho os está acusando de discriminação contra asiáticos. Alguém sabe de onde eles tiraram essas estimativas de probabilidade?

Não estou recebendo 1/741 no item (a).

(a) Para a posição de engenheiro de controle de qualidade, de um pool de mais de 730 candidatos qualificados - aproximadamente 77% dos quais eram asiáticos - Palantir contratou seis candidatos não asiáticos e apenas um candidato asiático. O impacto adverso calculado pelo OFCCP excede três desvios padrão. A probabilidade de esse resultado ocorrer de acordo com o acaso é de aproximadamente uma em 741.

(b) Para o cargo de Engenheiro de Software, de um conjunto de mais de 1.160 candidatos qualificados - aproximadamente 85% dos quais eram asiáticos - a Palantir contratou 14 candidatos não asiáticos e apenas 11 candidatos asiáticos. O impacto adverso calculado pelo OFCCP excede cinco desvios padrão. A probabilidade de esse resultado ocorrer de acordo com o acaso é de aproximadamente um em 3,4 milhões.

(c) Para o cargo de Engenheiro de controle de qualidade, de um grupo de mais de 130 candidatos qualificados - aproximadamente 73% dos quais eram asiáticos - a Palantir contratou 17 candidatos não asiáticos e apenas quatro candidatos asiáticos. O impacto adverso calculado pelo OFCCP excede seis desvios padrão. A probabilidade de esse resultado ocorrer de acordo com o acaso é de aproximadamente um em um bilhão.

— Aksakal
fonte

você pode mostrar o cálculo que fez para obter algo diferente de 1/741?

— Ben Bolker

Minha estimativa era unilateral - se você dobrar para torná-lo um teste de hipótese bilateral, você se aproxima muito desse número 1/741.

— Gregor - restabelece Monica

Concordo que dobrar não faz sentido, neste caso, eu estava apenas tentando adivinhar o que poderia ter sido feito. A questão não é qual é a resposta certa, mas como eles chegaram a essa estimativa .

— Gregor - reinstala Monica

Seria ótimo se alguém convertesse a captura de tela do PDF em uma citação de texto ...

— ameba diz Reinstate Monica

Consegui registrar sua captura de tela usando o finereaderonline.com .

— Ameba diz Reinstate Monica

Respostas:

Vou fazer engenharia reversa disso por experiência com casos de discriminação. Definitivamente, posso estabelecer de onde vieram os valores de "um em 741" etc. No entanto, tanta informação foi perdida na tradução que o resto da minha reconstrução depende de ter visto como as pessoas fazem estatísticas nas configurações da sala de audiências. Só posso adivinhar alguns detalhes.

Desde o momento em que as leis antidiscriminação foram aprovadas na década de 1960 (título VI), os tribunais dos Estados Unidos aprenderam a examinar os valores de p e compará-los aos limiares de e . Eles também aprenderam a observar os efeitos padronizados, geralmente chamados de "desvios padrão", e compará-los com um limiar de "dois a três desvios padrão". Para estabelecer um caso prima facie para um processo de discriminação, os autores normalmente tentam um cálculo estatístico mostrando um "impacto díspar" que excede esses limites. Se esse cálculo não puder ser suportado, o caso geralmente não pode avançar. $0.05$ $0.01$

Especialistas em estatística para demandantes geralmente tentam expressar seus resultados nesses termos familiares. Alguns especialistas conduzem um teste estatístico no qual a hipótese nula não expressa "nenhum impacto adverso", assumindo que as decisões de emprego eram puramente aleatórias e não governadas por outras características dos funcionários. (Se é uma alternativa bicaudal ou bicaudal, pode depender do especialista e das circunstâncias.) Eles convertem o valor p deste teste em vários "desvios padrão", referindo-o à distribuição normal padrão- - mesmo quando o Normal padrão é irrelevante para o teste original. Dessa maneira indireta, eles esperam comunicar claramente suas conclusões ao juiz.

O teste preferido para dados que podem ser resumidos em tabelas de contingência é o Teste exato de Fisher. A ocorrência de "Exato" em seu nome é particularmente agradável para os autores, pois conota uma determinação estatística que foi feita sem erro (seja lá o que for!).

Aqui está, então, a minha (reconstrução especulativa) dos cálculos do Departamento do Trabalho.

Eles executaram o Teste Exato de Fisher, ou algo parecido (como um teste do com um valor-p determinado por meio de randomização). Este teste assume uma distribuição hipergeométrica, conforme descrito na resposta de Matthew Gunn. (Para o pequeno número de pessoas envolvidas nesta queixa, a distribuição hipergeométrica não é bem aproximada por uma distribuição Normal.) $\chi^2$
Eles converteram seu valor-p em um escore Z normal ("número de desvios padrão").
Eles arredondaram a pontuação Z para o número inteiro mais próximo: "excede três desvios padrão", "excede cinco desvios padrão" e "excede seis desvios padrão". (Porque alguns desses escores-Z virou a até a desvios mais padrão, não posso justificar o "excede"; tudo o que posso fazer é citá-lo.)
Na denúncia, esses escores Z integrais foram convertidos de volta para valores-p! Novamente foi utilizada a distribuição normal padrão.
Esses valores p são descritos (sem dúvida de maneira enganosa) como "a probabilidade de que esse resultado ocorra de acordo com o acaso".

$1/1280$ $1/565000$ $1/58000000$ $730$ $1160$ $130$ $730$ $1160$ $130$ $-3.16$ $-4.64$ $-5.52$ $1/741$ $1/3500000$ $1/1000000000$

Aqui está um Rcódigo usado para executar esses cálculos.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

— whuber
fonte

Uau, eu não podia imaginar que isso pudesse ser feito. Isso é assustador.

— Aksakal

(+1) CSI: estatísticas.

— Firebug

Como calcular pvals corretamente usando a distribuição hipergeométrica:

$k$ $n$ $K$ $N$

Para um teste unilateral, no MATLAB, você pode ligar pval = hygecdf(k, N, K, n);ou, neste caso, pval = hygecdf(1, 730, 562, 7)aproximadamente 0,0007839.

A média e o desvio padrão são dados por:

μ = n \frac{K}{N} s = \sqrt{n \frac{K}{N} \frac{N - K}{N} \frac{N - n}{N - 1}}

$\mu = n \frac{K}{N} \quad \quad \quad s = \sqrt{n \frac{K}{N} \frac{N - K}{N} \frac{N - n}{N-1}}$

$\chi^2$

Procurando fórmulas que o OFCCP possa usar, este site que vi talvez possa ser útil: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

Resumo de alguns cálculos:

\begin{array}{rrrr} Number and method & Part A & Part B & Part C \\ PVal from hypergeometric CDF & 7.839e-04 & 1.77e-06 & 1.72e-08 \\ χ^{2} stat & 15.68 & 33.68 & 37.16 \\ χ^{2} pval & 7.49e-05 & 6.47e-09 & 1.09e-09 \\ Pval from above document & .00135 & 2.94e-07 & 1.00e-09 \end{array}

$\begin{array}{rrrr} \text{Number and method} & \text{Part A} & \text{Part B} & \text{Part C} \\ \text{PVal from hypergeometric CDF} & \text{7.839e-04} & \text{1.77e-06} & \text{1.72e-08}\\ \chi^2 \text{ stat} & 15.68 & 33.68 & 37.16\\ \chi^2 \text{ pval} & \text{7.49e-05} & \text{6.47e-09} & \text{1.09e-09} \\ \text{Pval from above document} & .00135 & \text{2.94e-07} & \text{1.00e-09} \end{array}$

$\chi^2$ $\sum \frac{(\text{expected} - \text{actual})^2}{\text{expected}}$

— Matthew Gunn
fonte

Obtive o mesmo resultado, mas de maneira diferente. Não é perto de 1/741

— Aksakal