Como comparar as escalas Likert com o número variável de categorias ao longo do tempo?

8

Deixe o ano 1 ser os dados do ano passado e o ano 2 os dados deste ano.

Suponha que no ano 1 você tenha uma escala de Likert de 1 a 9 (categórica / ordinal) e que no ano 2, para a mesma pergunta, tenha uma escala de Likert de 1 a 5 (categórica / ordinal).

Quais seriam algumas das coisas que você tentaria (se houver) para comparar os dois anos de dados?

O que eu fiz até agora:

Distribuições comparadas (forma, inclinação e curtose, estatisticamente iguais)
O redimensionamento de 1-9 para 1-5 e as alterações YoY nas frequências correspondem às expectativas lógicas derivadas de notícias / eventos do setor e resultados de pesquisas qualitativas.

Nota: Este não é um dever de casa. Também pode não ter uma resposta definitiva. Mas preciso de uma mão!

Desde já, obrigado!

scales likert

— Brandon Bertelsen
fonte

por que você diz escala Likert e depois Categorial / Ordinal? Likert significa intervalo escalado. Você pode esclarecer isso um pouco?

— Henrik

Para ser mais específico, o título deve ser alterado para Likert "item". Em seu segundo ponto, acho que muitas pessoas discordariam se um item do Likert apresenta ou não dados de intervalo ou ordinais. Para minha pergunta, é uma escala de concordância, de discordo totalmente a concordo totalmente. Cada nível de acordo é uma "categoria" e a distância entre ser "ordinal". Mas não vamos ficar presos na semântica!

— Brandon Bertelsen

@Henrik @Brandon Já havia algumas discussões, embaixo da etiqueta das escalas , sobre a natureza e a maneira de tratar a escala / item do Likert.

— chl

5

Esta não é uma resposta completa; apenas alguns pontos:

Se você puder administrar as duas versões da escala em uma subamostra, poderá estimar quais são as pontuações correspondentes nos dois formatos de resposta. Em seguida, você pode aplicar uma fórmula de conversão justificada empiricamente. Eu posso pensar em várias maneiras de fazer isso. Eu estaria interessado se alguém tiver um trabalho acadêmico sobre as melhores práticas para fazer isso.
Se você fizer um redimensionamento simples (1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9), não há garantia de que isso seja justificável. Como uma declaração ampla (pelo menos dentro da minha experiência em ambientes organizacionais), as mudanças na redação do item e nas opções de escala provavelmente terão um efeito maior nas respostas do que qualquer mudança real no atributo de interesse. No mínimo, você deve verificar se as âncoras de balança usadas são aproximadamente equivalentes nos dois formatos de resposta.

— Jeromy Anglim
fonte

Como uma nota para o seu segundo comentário. As âncoras são iguais às do ano anterior da pesquisa. Essencialmente, a granularidade da escala foi reduzida.

— Brandon Bertelsen

4

[Tecnicamente, você tem itens de pesquisa, não escalas Likert; os últimos são criados a partir de vários itens. Veja, por exemplo, a Construção da Escala Somatada de Classificação de Paul Spector {Sage}.]

As etapas a serem tomadas dependerão do público para o qual você está denunciando. Se for acadêmico e rigoroso, como um comitê de dissertação, você poderá enfrentar desafios especiais. Se não estiver, e se estiver confortável com o formato comum de 1-5, por que não redimensionar para ajustar isso e depois relatar médias e desvios padrão (especialmente porque formas, inclinação e curtose não são diferentes de ano para ano. são normais o suficiente, o que significa expressar com precisão a tendência central?).

-> Por que estou tratando suas variáveis como de nível de intervalo? Os puristas podem dizer que as variáveis no nível ordinal não devem ser relatadas por meios ou sd. Bem, seus comentários sugerem, apesar do uso de "categórico / ordinal", que você está lidando com um nível de medida ordinal que você realmente se sente confortável em tratar como intervalo -nível. Afinal, por que você avaliaria assimetria ou curtose? Suponho que seu público também estará bem e poderá se relacionar com estatísticas em nível de intervalo, como meios.

Parece bom que você já tenha explorado os dados graficamente. Se você deseja ir além da avaliação da magnitude da diferença e realizar um teste de hipóteses, por que não fazer um teste T (independente ou correlacionado, dependendo dos seus dados) comparando as pontuações 1-5 pré e pós pontuações 1-5, e produzindo um intervalo de confiança para a diferença média. Aqui, suponho que você tenha amostras aleatórias de uma população.

— rolando2
fonte

Sim, percebo que não devo "procurar" algumas dessas coisas em busca de dados ordinais, mas, na verdade, é a única ferramenta em que pude pensar para comparar os dois anos. Realmente, eu estava olhando para coisas que pudessem comparar as distribuições. Mas acho que os meios de teste podem ser plausíveis - mas um intervalo de confiança pode não necessariamente incluir a minha média, pois houve muitas mudanças estruturais no setor para as quais essa pergunta revisa YoY.

— Brandon Bertelsen

1

Considere transformar as respostas de ambos os conjuntos de dados em z-scores. Haverá uma qualidade ad hoc para qualquer tipo de redimensionamento, mas pelo menos dessa maneira você evita tratar mecanicamente qualquer conjunto específico de intervalos em um item como equivalente a qualquer conjunto específico no outro. Definitivamente, eu seguiria esse caminho se estivesse usando os itens como preditores ou variáveis de resultado em qualquer tipo de análise de variação. Se você estivesse fazendo algo com escalas compostas - aquelas que agregam medidas likert - provavelmente faria essencialmente o que propus: ou converteria as respostas dos itens em z-scores antes de somar ou tomar sua média para formar a escala composta; ou você formaria uma escala com análise fatorial ou outra técnica que usa a matriz de covariância dos itens para determinar a afinidade das respostas a eles.

— dmk38
fonte

2

Parece que isso forçaria as comparações ano a ano a terem médias e variações iguais, eliminando artificialmente a maioria das informações sobre mudanças temporais.

— whuber

verdade. Eu não estava pensando em comparar as médias das duas amostras; nesse caso, converter em z-scores é auto-destrutivo. Teve a covariância em mente - por exemplo, avaliar como um ou mais preditores se relacionam com a pontuação do item likert no ano ou em ambos combinados. Costumo pensar que as matrizes de covariância são a única coisa que se deve aprender ao usar itens do tipo likert (as pessoas tendem a investir os pontos na medida com muito significado - "mas o meu passa para o 11"). Espero não ter jogado ninguém fora dos trilhos.

— Dmk38

Concordantemente, algumas comparações são perdidas. No entanto, grande parte da minha análise se concentra nas pontuações líquidas dos promotores, e não nas médias e variações. Então, eu vou experimentar e ver o que isso me deixa. Felicidades pela resposta.

— Brandon Bertelsen

1

Eu apenas tive que resolver esse problema exato. Tivemos uma escala de 9 pontos que foi alterada para uma escala de 5 pontos em um rastreador que remonta 10 anos. Não apenas isso, mas algumas das declarações também mudaram. E estávamos reportando como uma forma do Net Promoter Score.

A solução que usamos aplicou é um design emparelhado, perguntando a cada entrevistado algumas das declarações antigas da maneira antiga (assim como toda a nova). Só pedimos a um casal o caminho antigo, e não todos, uma vez que isso minimiza a fadiga dos entrevistados. Em seguida, pegamos cada pontuação na escala de 9 pontos e descobrimos que ela é média na pontuação de 5 pontos e usamos isso para corrigir a mudança de escala E a mudança de instrução. Isso é bastante semelhante ao chamado "julgamento semântico do valor da palavra fixa" em alguns artigos, mas em vez de usar especialistas para decidir o "valor da palavra", usamos os dados reais dos entrevistados.

Por exemplo, se a pontuação média na escala de 5 pontos fosse 1,2 para os respondentes que responderam a 2 na escala de 9 pontos, para comparar diretamente anos com escalas diferentes na escala de 5 pontos, substituiríamos todos os 2 na escala de 9 pontos com 1.2, faça o mesmo para todas as pontuações de 9 pontos e prossiga normalmente.

Fizemos uma coisa semelhante ao relatar o NPS. Mas primeiro convertemos a escala de 5 pontos para a escala NPS de 1 (promotor), 0 (passivo), -1 (detrator), por exemplo, se a média na escala NPS foi de 0,9 para um 2 na escala de 9 pontos, substituímos com 0,9, faça o mesmo para todas as pontuações de 9 pontos e calcule o NPS normalmente.

Para avaliar a eficácia disso, comparamos primeiro as pontuações do NPS 'não corrigidas' usando as escalas de 9 e 5 pontos para ver se havia realmente algum problema e, depois, as 'corrigidas'. Ainda não tenho os dados, mas informarei quando o fizermos!

— Chris Howden
fonte