Como resumir dados categóricos?

13

Eu tenho lutado com o seguinte problema, espero que seja fácil para estatísticos (eu sou um programador com alguma exposição a estatísticas).

Preciso resumir as respostas a uma pesquisa (para gerenciamento). A pesquisa tem mais de 100 perguntas, agrupadas em diferentes áreas (com cerca de 5 a 10 perguntas por área). Todas as respostas são categóricas (em uma escala ordinal, são como "de modo algum", "raramente" ... "diariamente ou com mais frequência").

A gerência gostaria de obter um resumo para cada área e este é o meu problema: como agregar respostas categóricas na pergunta relacionada?. As perguntas são demais para fazer um gráfico ou mesmo um gráfico de treliça para cada área. Sou a favor de uma abordagem visual, se possível, em comparação com, digamos, tabelas com números (infelizmente, eles não os lêem).

A única coisa que posso encontrar é contar o número de respostas em cada área e depois traçar o histograma.

Existe mais alguma coisa disponível para dados categóricos?

Uso R, mas não tenho certeza se é relevante, acho que isso é mais uma questão geral de estatística.

categorical-data data-transformation descriptive-statistics

— wishihadabettername
fonte

E o PCA / FA? Você reduziria variáveis correlacionadas em fatores e trabalharia a partir daí ...

— Roman Luštrik

isso pode ser demais, se a gerência perguntar 'como você conseguiu os números agregados?' eles querem uma técnica mais simples para que eles possam (sentir que) a entendem. Infelizmente, o mundo real :-( Obrigado.

— wishihadabettername

10

Você realmente precisa descobrir qual é a pergunta que está tentando responder - ou qual é a questão de gerenciamento mais interessada. Em seguida, você pode selecionar as perguntas de pesquisa mais relevantes para o seu problema.

Sem saber nada sobre o seu problema ou conjunto de dados, aqui estão algumas soluções genéricas:

Representa visualmente as respostas como clusters. O meu favorito é usar dendrogramas ou apenas plotar em um eixo xy (Google "cluster analysis r" e ir para o primeiro resultado por statmethods.net)
Classifique as perguntas da maior para a menor "diariamente ou com mais frequência" respostas. Este é um exemplo que pode não funcionar exatamente para você, mas talvez o inspire http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
Crosstabs: se, por exemplo, você tiver uma pergunta "Com que frequência você chega atrasado para o trabalho?" e "Com que frequência você usa o Facebook?", cruzando as duas perguntas para descobrir a porcentagem de pessoas que raramente fazem as duas coisas, ou que fazem as duas coisas todos os dias. )
Correlogramas. Não tenho nenhuma experiência com isso, mas também o vi no site statmethods.net. Basicamente, você descobre quais perguntas têm a correlação mais alta e cria uma tabela. Você pode achar isso útil, embora pareça meio "ocupado".

— Dimitry L
fonte

Vou marcar isso como a resposta; Existem várias boas sugestões, então vou pensar em como aplicá-las.

— wishihadabettername

9

Há um bom artigo sobre técnicas de visualização que você pode usar por Michael Friendly:

Visualização de dados categóricos: dados, histórias e imagens

(Na verdade, há um livro inteiro dedicado a isso pelo mesmo autor.) O pacote vcd no R implementa muitas dessas técnicas.

— ars
fonte

upvoted para a referência ao papel e o livro, eu vou lê-los

— wishihadabettername

8

As opções padrão incluem:

obter a média para itens em uma escala (por exemplo, se a escala for de 1 a 5, a média será de 1 a 5)
convertendo cada item em uma medida binária (por exemplo, se item> = 3, então 1, mais 0) e, em seguida, calculando a média dessa resposta binária

Como você está agregando itens e grandes amostras de pessoas na organização, as duas opções acima (ou seja, a média de 1 a 5 ou a porcentagem acima de um ponto) serão confiáveis no nível organizacional ( veja aqui para discussão adicional ). Assim, qualquer uma das opções acima está basicamente comunicando a mesma informação.

Em geral, eu não estaria preocupado com o fato de os itens serem categóricos. Quando você cria escalas agregando itens e depois agregando sua amostra de respondentes, a escala será uma aproximação aproximada a uma escala contínua.

A gerência pode achar uma métrica mais fácil de interpretar. Quando recebo notas de Qualidade do ensino (ou seja, a pontuação média de satisfação dos alunos, por exemplo, 100 alunos), é a média em uma escala de 1 a 5 e isso é bom. Ao longo dos anos, depois de ver minhas próprias pontuações de um ano para o outro e também de algumas normas para a universidade, desenvolvi um quadro de referência do que significam diferentes valores. No entanto, às vezes a gerência prefere pensar na porcentagem que endossa uma afirmação ou na porcentagem de respostas positivas, mesmo quando, de certo modo, é a porcentagem média.

O principal desafio é fornecer um quadro de referência tangível para as pontuações. A gerência vai querer saber o que os números realmente significam . Por exemplo, se a resposta média para uma escala é 4.2, o que isso significa? Isso é bom? É ruim? Está tudo bem?

Se você estiver usando a pesquisa por vários anos ou em diferentes organizações, poderá começar a desenvolver algumas normas. O acesso às normas é um dos motivos pelos quais as organizações geralmente obtêm um provedor de pesquisa externo ou usam uma pesquisa padrão.

Você também pode executar uma análise fatorial para validar que a atribuição de itens a escalas é empiricamente justificável.

Em termos de abordagem visual, você pode ter um gráfico de linhas ou barras simples com o tipo de escala no eixo x e a pontuação no eixo y. Se você tiver dados normativos, poderá adicioná-los também.

— Jeromy Anglim
fonte

1

Sim. Considero que o cluster é uma abordagem muito eficaz para a redução de dados, para reduzir os dados da pesquisa, tanto para a compreensão quanto para a apresentação da gerência.

A análise de classe latente (tratando as escalas de resposta como ordinais) ou os meios k (tratando-as como contínuas) podem ser vistas como uma forma de compactação de informações . A classificação dos entrevistados em seu segmento mais provável geralmente gera uma variável categórica que possui explicações intuitivas quando analisada em termos de respostas.

Você pode nomear os segmentos e usar essas variáveis para análise e apresentação do nível de resumo.

Ajuste um cluster para grupos de itens relacionados (por exemplo, abaixo) ou possivelmente todos juntos.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Costumo usar o LatentGold, mas acho o FASTCLUS no SAS um bom expediente.

Antes de fazer isso, considere ajustar as respostas de cada indivíduo para o uso da escala (controverso, mas pragmático). Algumas pessoas apenas se inclinam em uma extremidade da escala, evitando o negativo ou o positivo. Agrupar respostas brutas normalmente tende a dividir as pessoas por esse comportamento.

Padronizar as respostas de cada entrevistado de acordo com sua própria média e agrupar as que frequentemente expõem variáveis que se movem juntas de maneiras muito interessantes.

— protótipo
fonte