Agrupar diferenças em um item Likert de cinco pontos


22

Seguindo esta pergunta : Imagine que você deseja testar as diferenças na tendência central entre dois grupos (por exemplo, homens e mulheres) em um item Likert de 5 pontos (por exemplo, satisfação com a vida: insatisfeito com satisfeito). Penso que um teste t seria suficientemente preciso para a maioria dos propósitos, mas que um teste de autoinicialização das diferenças entre as médias dos grupos geralmente proporcionaria uma estimativa mais precisa dos intervalos de confiança. Que teste estatístico você usaria?


2
Uma questão relacionada: As pessoas costumam usar o teste não paramétrico de Mann-Whitney para esse tipo de dado. Como existem apenas cinco valores possíveis, haverá muitas classificações empatadas. O teste de Mann-Whitney se ajusta às fileiras empatadas, mas esse ajuste funciona quando há um grande número de empates?
Harvey Motulsky

5
Você pode estar interessado neste artigo recente publicado no PARE, Itens Likert de cinco pontos: teste t versus Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl

Não tenho certeza se o teste do qui-quadrado também é apropriado, ele testa se há alguma dependência entre os grupos e os itens (distribuição diferente entre os grupos).
pe-pe-rry

Respostas:


12

Clason & Dormody discutiram a questão do teste estatístico para itens do Likert ( Analisando dados medidos por itens individuais do tipo Likert ). Eu acho que um teste de bootstrap é bom quando as duas distribuições parecem semelhantes (em forma de sino e variação igual). No entanto, um teste para dados categóricos (por exemplo, tendência ou teste de Fisher, ou regressão logística ordinal) seria muito interessante uma vez que permite verificar a distribuição de resposta através das categorias de itens, veja o livro de Agresti em Categorical Análise de Dados (Capítulo 7 em modelos Logit para respostas multinomiais ).

Além disso, você pode imaginar situações em que o teste t ou outros testes não paramétricos falhariam se a distribuição da resposta estivesse fortemente desequilibrada entre os dois grupos. Por exemplo, se todas as pessoas do grupo A responderem 1 ou 5 (na mesma proporção), enquanto todas as pessoas do grupo B responderem a 3, você terminará com média idêntica dentro do grupo e o teste não terá sentido algum, embora neste caso a suposição de homoscedasticidade é amplamente violada.


O artigo Clason e Dormody parece bom. Seus comentários sobre a distribuição de respostas são interessantes de se considerar. Concordo que as diferenças nas distribuições podem ser interessantes. Mas se você estivesse interessado apenas em saber se os meios de grupos populacionais eram diferentes, não importaria necessariamente quais distribuições deram origem a essa igualdade.
precisa saber é o seguinte

Nesse caso, você está assumindo que sua escala Likert (em outras palavras, a diferença percebida entre, por exemplo, muito satisfeito e "apenas" satisfeito) se comporta idealmente e é percebida como tendo o mesmo significado em ambas as populações. Portanto, você está implicitamente assumindo que essa é uma escala numérica, mas eu concordo que isso é frequentemente considerado como tal na pesquisa aplicada, especialmente se os participantes vierem do mesmo país. Meu objetivo era apenas enfatizar a perspectiva da análise de dados categóricos, como geralmente encontrada na tradição da Análise Fatorial, como na minha resposta à Pergunta 10.
chl

Suponho que a média da amostra que responde a um item do Likert seja geralmente um resumo significativo da posição do grupo na dimensão subjacente. É interessante pensar em quando o significado de um item do Likert variaria sistematicamente entre os grupos. Obviamente, esse problema se estende além dos itens Likert, provavelmente para qualquer procedimento de medição subjetivo.
precisa saber é o seguinte

8

Dependendo do tamanho do conjunto de dados em questão, um teste de permutação pode ser preferível a um bootstrap, pois ele pode fornecer um teste exato da hipótese (e um IC exato).


4

IMHO você não pode usar um teste t para escalas Likert. A escala de Likert é ordinal e "conhece" apenas as relações de valores de uma variável: por exemplo, "totalmente insatisfeito" é pior do que "de alguma forma insatisfeito". Um teste t, por outro lado, precisa calcular médias e mais e, portanto, precisa de dados de intervalo. Você pode mapear as pontuações da escala Likert para os dados do intervalo ("totalmente insatisfeito" é 1 e assim por diante), mas ninguém garante que "totalmente insatisfeito" esteja à mesma distância de "insatisfeito", pois "insatisfeito" é de "nem nem". A propósito: qual é a diferença entre "totalmente insatisfeito" e "de alguma forma insatisfeito"? Então, no final, você faria um teste t nos valores codificados dos seus dados ordinais, mas isso simplesmente não faz sentido.


9
... e ainda assim é comum. Uma coisa a salientar, e sim, isso é um pouco pedante, se você estiver usando um único item do tipo Likert que não é uma escala do tipo Likert. A diferença é significativa (embora o responsável pela pergunta esteja falando sobre um item do Likert e a ordinalidade seja um problema). Uma escala Likert é uma consequência da soma ou da média de vários itens do Likert. Essa abordagem foi desenvolvida especificamente para compensar até que ponto os dados ordinais eram realmente ordinais e torná-lo mais razoável de ser tratado como estando na escala de intervalo.
22810 russellpierce #

3

Se cada item do questionário é ordinal, e eu não acho que esse ponto possa ser contestado, uma vez que não há como saber se a diferença quantitativa entre "concordo totalmente" e "concordo" é a mesma que entre " discordo totalmente "e" discordo ", então por que o somatório de todas essas escalas de nível ordinal produziria um valor que compartilhe as propriedades dos dados verdadeiros no nível de intervalo?

Por exemplo, se estamos interpretando os resultados de um inventário de depressão, não faz sentido (pelo menos para mim) dizer que uma pessoa com uma pontuação de "20" está duas vezes mais deprimida do que uma pessoa com uma pontuação de " 10 ". Isso ocorre porque cada item do questionário não está medindo as diferenças reais nos níveis de depressão (supondo que a depressão seja um distúrbio orgânico estável, intenal), mas sim a classificação subjetiva de concordância da pessoa com uma afirmação específica. Quando perguntado, "quão deprimido você diria que seu humor está em uma escala de 1 a 4, sendo 1 muito deprimido e 4 absolutamente deprimido", como sei que a classificação subjetiva de um respondente de 1 é igual à de outro respondente ? Ou como posso saber se a diferença entre 4 e 3 é igual à de 3 e 4 em termos da pessoa " nível atual de depressão. Se não podemos saber nada disso, não faz sentido tratar a soma de todos esses itens ordinais como dados em nível de intervalo. Mesmo que os dados formem uma distribuição normal, não acho apropriado tratar as diferenças entre as pontuações como dados no nível do intervalo, se eles foram calculados somando todas as respostas a itens de likert. Uma distribuição normal de dados significa apenas que as respostas provavelmente são representativas da população maior; isso não implica que os valores obtidos nos inventários compartilhem propriedades importantes dos dados no nível do intervalo. acho que é apropriado tratar as diferenças entre as pontuações como dados no nível do intervalo, se elas foram calculadas somando todas as respostas a um item do tipo likert. Uma distribuição normal de dados significa apenas que as respostas provavelmente são representativas da população maior; isso não implica que os valores obtidos nos inventários compartilhem propriedades importantes dos dados no nível do intervalo. acho que é apropriado tratar as diferenças entre as pontuações como dados no nível do intervalo, se elas foram calculadas somando todas as respostas a um item do tipo likert. Uma distribuição normal de dados significa apenas que as respostas provavelmente são representativas da população maior; isso não implica que os valores obtidos nos inventários compartilhem propriedades importantes dos dados no nível do intervalo.

Precisamos ter cuidado nas ciências comportamentais sobre como usamos a estatística para falar com as variáveis ​​latentes que estamos estudando, pois, como não há maneira direta de medir essas construções hipotéticas, haverá problemas significativos quando tentarmos quantificá-las. para testes paramétricos. Novamente, simplesmente porque atribuímos valores a um conjunto de respostas não significa que as diferenças entre esses valores sejam significativas.


1
Se você está feliz em somar pontuações de itens, já assumiu mais do que o nível estritamente ordinal de medida. Estritamente falando, as medidas ordinais não podem ser significativamente adicionadas ou calculadas a média (aliás, Stevens é claro sobre isso). Depois de fazer isso, tratar as pontuações resultantes como dados no nível do intervalo é perfeitamente razoável.
Gala #

0

O modelo proporcional de odds ratio é melhor que o teste t para a escala de itens do Likert.


1
Gostaria de explicar seus motivos? Eu posso ver como esse modelo pode fornecer um modelo mais preciso de respostas observadas. No entanto, nas situações típicas de pesquisa prática que eu já vi, os pesquisadores estão interessados ​​em saber se os dois grupos diferem em termos de média (por exemplo, o grupo de treinamento relatou desempenho superior ao controle; a satisfação do aluno foi maior de um ano para o outro? ) O modelo de odds ratio proporcional não testa essa pergunta exatamente até onde eu sei.
precisa saber é o seguinte

0

Vou tentar explicar o modelo proporcional de odds ratio neste contexto, uma vez que foi sugerido e indicado em pelo menos 2 respostas a esta pergunta.

O teste de pontuação de um modelo de chances proporcionais é equivalente ao teste de soma da classificação de Wilcoxon.

Mais precisamente, a estatística do teste de pontuação para nenhum efeito de uma única covariável dicotômica em um modelo de regressão logística cumulativa de chances proporcionais (McCullagh 1980) para o resultado ordinal mostrou-se igual à estatística do teste da soma da classificação de Wilcoxon. (Prova em uma extensão do teste Wilcoxon Rank-Sum para dados complexos de pesquisa de amostra .)

Assim como o teste de soma da classificação de Wilcoxon, este teste detecta se duas amostras foram retiradas de distribuições diferentes, independentemente dos valores esperados.

Este teste é inválido se você deseja detectar apenas se duas amostras foram retiradas de distribuições com diferentes valores esperados, assim como o teste de soma da classificação de Wilcoxon.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.