O que são dados vinculados no contexto de um coeficiente de correlação de classificação?

16

Eu não estou no campo de estatísticas.

Eu vi a palavra "dados vinculados" ao ler sobre os coeficientes de correlação de classificação.

O que são dados vinculados?
O que é um exemplo de dados vinculados?

correlation nonparametric ranks

— BB01
fonte

5

Significa dados que têm o mesmo valor; por exemplo, se você tiver 1,2,3,3,4 como conjunto de dados, os dois 3 serão dados vinculados. Se você tiver 1,2,3,4,5,5,5,6,7,7 como o conjunto de dados, os 5 e os 7 serão dados vinculados.

— quarkdown27
fonte

14

"Dados vinculados" surge no contexto de testes estatísticos não paramétricos baseados em classificação.

Testes não paramétricos : teste que não assume uma distribuição de probabilidade específica, por exemplo, não assume uma curva em forma de sino.

com base na classificação : uma grande classe de testes não paramétricos começa convertendo os números (por exemplo, "3 dias", "5 dias" e "4 dias") em classificações (por exemplo, "menor duração (3ª)", "maior duração" (1st) "," segunda maior duração (2nd) "). Um método de teste paramétrico tradicional é então aplicado a essas fileiras.

Os dados vinculados são um problema, já que números idênticos agora precisam ser convertidos em classificação. Às vezes, as classificações são atribuídas aleatoriamente, às vezes uma classificação média é usada. Mais importante ainda, um protocolo para romper fileiras empatadas precisa ser descrito para a reprodutibilidade do resultado.

— Ming K
fonte

5

São simplesmente dois valores de dados idênticos, como observar 7 duas vezes no mesmo conjunto de dados.

Isso surge no contexto de métodos estatísticos que assumem que os dados têm uma medição contínua e, portanto, idêntica é impossível (ou tecnicamente, os valores idênticos de probabilidade são zero). As complicações práticas surgem quando esses métodos são aplicados a dados arredondados ou cortados, para que medições idênticas sejam não apenas possíveis, mas bastante comuns.

— John D. Cook
fonte

1

Não concordo com esse raciocínio, pois você não pode dizer isso devido à sua probabilidade zero de que esse evento nunca ocorra. Este não é um bom raciocínio.

— Henry.L

2

A questão é de fundamental importância:

O que é uma observação / dados / par empatados?

$T^+$ .

(Portanto, não acho que a resposta de @ Ming-Chih Kao seja adequada introduzindo testes não paramétricos primeiro. Mas, como o título é 'O que são dados vinculados no contexto de um coeficiente de correlação de classificação?', Comprarei).

$Z_{i}=X_{i}-Y_{i}$

$(X_{i},Y_{i})$

$Z_{i}$

$|Z_{i}|$

$\{(1,-1) (1,-1)\},\{ (1,2) (1,2) (2,1) (2,1) (2,3) (2,3) (3,2) \},\{(3,0)\}$

Vamos tentar a maneira mais fácil de fazer isso, classificamos da esquerda para a direita e damos:

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|$

$R_{i}$ : 8 7 6 9 5 4 3 2 1 10

The bold represents the first tied group consists of those $|Z_{i}|=1$ observations; the italic represents the second tied group consists of those $|Z_{i}|=2$ observations.

We assign to each of the observation in the first group the rank $\frac{1+\cdots+7}{7}=4$ ;we assign to each of the observation in the second group the rank $\frac{8+9}{2}=8.5$ . Therefore we have:

$R_{i}$ : 8.5 4 4 8.5 4 4 4 4 4 10

This modified the rankings and make each of the tied observation has the same influence in calculating the ranked statistics, thus in the rank test.

What are the solutions to tied observation/data/pair ?

(1)Assign the average rank. This is just what we did above. By assigning the same rank to the tied data in the same group, we make their influence in the ranked test just the same and therefore eliminate the possible inaccuracy caused by tied observations.

(2)Assign the random rank. Just assign ranks randomly to each of the tied group element. The only restriction is that $MaxRank_{first group}<MinRank_{second group}$ since if $MaxRank_{first group}>MinRank_{second group}$ , that breaks the ranking law; if $MaxRank_{first group}=MinRank_{second group}$ , then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in $\epsilon$ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, $P{X=x}=0$ . However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

— Henry.L
fonte