O revisor deve ter-lhe dito por que o Spearman não é apropriado. Aqui está uma versão disso: sejam os dados onde é a variável medida e é o indicador de gênero, digamos que seja 0 (homem), 1 (mulher). Então, o Spearman é calculado com base nas fileiras de respectivamente. Como existem apenas dois valores possíveis para o indicador , haverá muitos empates, portanto, essa fórmula não é apropriada. Se você substituir rank por rank médio, obterá apenas dois valores diferentes, um para homens e outro para mulheres. Então( Z i , I i ) Z I ρ Z , I I ρρ(Zi,Ii)ZIρZ,IIρse tornará basicamente uma versão redimensionada das classificações médias entre os dois grupos. Seria mais simples (mais interpretável) simplesmente comparar os meios! Outra abordagem é a seguinte.
Sejam as observações da variável contínua entre homens, iguais entre as mulheres. Agora, se a distribuição de e de for a mesma, será 0,5 (vamos supor que a distribuição seja puramente absolutamente contínua, portanto, não há vínculos). No caso geral, defina
onde é um sorteio aleatório entre homens, entre mulheres. Podemos estimar da nossa amostra? Forme todos os pares (assuma que não há laços) e conte quantos temos "o homem é maior" ( ) (Y 1 , … , Y m X Y P ( X > Y ) θ = P ( X > Y ) X Y θ ( X i , Y j ) X i > Y j M X i < Y j W θ MX1,…,XnY1,…,YmXYP(X>Y)
θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) e para quantas "a mulher é maior" ( ) ( ). Então uma estimativa amostral de é
Essa é uma medida razoável de correlação! (Se houver apenas alguns laços, ignore-os). Mas não tenho certeza de como isso se chama, se tiver um nome. Este pode estar próximo:
https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθMM+W