Classificação geral de várias listas classificadas


13

Examinei muita literatura disponível on-line, incluindo este fórum sem sorte e esperando que alguém possa ajudar em um problema estatístico que atualmente enfrento:

Eu tenho 5 listas de dados classificados, cada um contendo 10 itens classificados da posição 1 (melhor) até a posição 10 (pior). Por uma questão de contexto, os 10 itens em cada lista são os mesmos, mas em ordens de classificação diferentes, pois a técnica usada para decidir sua classificação é diferente.

Dados de exemplo:

            List 1      List 2      List 3     ... etc
Item 1     Ranked 1    Ranked 2    Ranked 1     
Item 2     Ranked 3    Ranked 1    Ranked 2
Item 3     Ranked 2    Ranked 3    Ranked 3
... etc

Estou procurando uma maneira de interpretar e analisar os dados acima para obter um resultado final mostrando a classificação geral de cada item com base em cada teste e sua posição, por exemplo

Result
Rank 1 = Item 1
Rank 2 = Item 3
Rank 3 = Item 4
... etc

Até agora, tentei interpretar essas informações executando os testes Correlação de Pearson, Correlação de Spearman, B de Kendall Tau e Friedman. Descobri, no entanto, que esses resultados geralmente emparelham minhas listas (ou seja, comparam a lista 1 à lista 2, depois a lista 1 à lista 3 ... etc), ou produziram resultados como o quadrado de qui, valores P etc. sobre o total dados.

Alguém sabe como eu posso interpretar esses dados em um método estatisticamente correto (no nível aplicável de pós-graduação / doutorado) para que eu possa entender as classificações gerais que sinalizam a importância de cada item da lista nos 5 testes, por favor? Ou, se houver outro tipo de técnica ou teste estatístico em que eu possa analisar, eu apreciaria qualquer dica ou orientação.

(Talvez também valha a pena notar, eu também executei técnicas matemáticas mais simples, como somas, média, testes de mínimo e máximo, etc., mas não considero que estas sejam estatisticamente importantes o suficiente neste nível).

Qualquer ajuda ou conselho seria muito apreciada, obrigado pelo seu tempo.


1
Encontro duas perguntas que, adequadamente interpretadas, parecem duplicadas (e, portanto, já fornecem respostas): stats.stackexchange.com/search?q=valuation+rank . Estes são adequados? Caso contrário, ajude-nos a entender o que há de especial em sua situação.
whuber

Obrigado pela sua resposta. Examinei esses artigos e não tenho certeza se eles não são o que estou procurando ou se é o meu entendimento errado. Nesses artigos, tenho a impressão de que cada um dos conjuntos de dados tem muitas variáveis ​​com significados diferentes e que as fileiras podem ser diferentes ou ter mais valores inteiros do que apenas a classificação. Estou apenas procurando uma maneira estatisticamente comprovada de poder dizer 'no geral, o item mais importante é o item X, seguido de Y ... e, por último (ou menos importante), o item Z'. Estou quase considerando analisar estes classifica 1-10 como números simples
Liam

1
Um ponto importante desses tópicos é que não existe uma "maneira estatisticamente comprovada". É uma questão de avaliação : qualquer combinação estatística de seus resultados reflete uma sensação de troca entre eles. Por exemplo , seus "objetos" podem ser carros e as "técnicas" podem classificá-los de acordo com vários atributos: custo, eficiência de combustível, potência, conforto etc. Seu senso pessoal de "melhor" pode diferir substancialmente do senso de outra pessoa e vocês dois estariam certos.
whuber

você conseguiu a resposta? por favor, deixe um comentário aqui stats.stackexchange.com/questions/347336/…
Ray Coder

Respostas:


7

Não sei por que você estava procurando correlações e medidas semelhantes. Parece não haver nada para correlacionar.

Em vez disso, existem várias opções, nenhuma realmente melhor que a outra, mas dependendo do que você deseja:

Assuma a classificação média e depois classifique as médias (mas isso trata os dados como intervalo)

Assuma a classificação mediana e depois classifique as medianas (mas isso pode resultar em empates)

Pegue o número de votos no 1º lugar que cada item obteve e classifique-os com base neste

Pegue o número de votos no último lugar e classifique-os (inversamente, obviamente) com base nisso.

Crie uma combinação ponderada de classificações, dependendo do que você acha razoável.


4
Um ponto importante destacado nos tópicos que referenciei em um comentário - e acho que esse é o cerne de toda a questão - é que todos esses métodos são arbitrários . Existem métodos objetivos, mas eles exigem o uso de informações não inerentes aos dados. É isso que torna isso um problema de avaliação e não de estatística.
whuber

Que combinação ponderada de classificações você sugeriria?
Archie

4

Como outros já apontaram, há muitas opções que você pode buscar. O método que eu recomendo é baseado em classificações médias, ou seja, a primeira proposta de Peter.

Nesse caso, a importância estatística da classificação final pode ser examinada por um teste estatístico em duas etapas. Este é um procedimento não paramétrico que consiste no teste de Friedman com um teste post-hoc correspondente, o teste de Nemenyi . Ambos são baseados em classificações médias. O objetivo do teste de Friedman é rejeitar a hipótese nula e concluir que não são algumas diferenças entre os itens. Nesse caso, prosseguimos com o teste de Nemenyi para descobrir quais itens realmente diferem. (Não começamos diretamente com o teste post-hoc para evitar o significado encontrado por acaso.)

Mais detalhes, como os valores críticos para esses dois testes, podem ser encontrados no artigo de Demsar .


2

Use Tau-x (onde o "x" se refere a "eXtended" Tau-b). Tau-x é o equivalente de correlação da métrica de distância Kemeny-Snell - comprovadamente a única métrica de distância entre listas de itens classificados que satisfaz todos os requisitos de uma métrica de distância. Veja o capítulo 2 de "Modelos Matemáticos nas Ciências Sociais", de Kemeny e Snell, também "Um Novo Coeficiente de Correlação de Classificação com Aplicação ao Problema de Classificação de Consenso, Edward Emond, David Mason, Journal of Multi-Criteria Decision Analysis, 11: 17- 28 (2002).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.