Quais estatísticas resumidas para usar com variáveis ​​categóricas ou qualitativas?


18

Apenas para esclarecer, quando quero dizer estatísticas resumidas, refiro-me às faixas Média, Mediana do Quartil, Variância e Desvio Padrão.

Ao resumir um univariado que é categórico ou qualitativo , considerando os casos Nominal e Ordinal , faz sentido encontrar sua média, mediana, faixas de quartis, variação e desvio padrão?

Se sim, é diferente do que se você estivesse resumindo uma variável contínua e como?


2
Quase não vejo diferença entre a variável categórica e a qualitativa, exceto a terminologia. De qualquer forma, seria muito difícil calcular algo como média ou DP em uma variável nominal (por exemplo, cor do cabelo). Talvez você esteja pensando em variáveis ​​categóricas com níveis ordenados?
chl

Não, se os dados categóricos têm uma ordem ou níveis de classificação, eles são considerados ordinais de acordo com este site: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] e diz "Você pode contar e ordem, mas não medir, dados ordinal"
chutsu

Mas eu estou errado?
chutsu 23/07/12

Respostas:


8

No geral, a resposta é não. No entanto, pode-se argumentar que você pode obter a mediana dos dados ordinais, mas é claro que você terá uma categoria como mediana, não um número. A mediana divide os dados igualmente: Metade acima, metade abaixo. Os dados ordinais dependem apenas da ordem.

Além disso, em alguns casos, a ordinalidade pode ser transformada em dados aproximados de nível de intervalo. Isso ocorre quando os dados ordinais são agrupados (por exemplo, perguntas sobre renda são frequentemente feitas dessa maneira). Nesse caso, você pode encontrar uma mediana precisa e conseguir aproximar os outros valores, especialmente se os limites inferior e superior forem especificados: Você pode assumir alguma distribuição (por exemplo, uniforme) dentro de cada categoria. Outro caso de dados ordinais que podem ser feitos com intervalo é quando os níveis recebem equivalentes numéricos. Por exemplo: Nunca (0%), às vezes (10-30%), cerca da metade do tempo (50%) e assim por diante.

Para (mais uma vez) citar David Cox:

Não há perguntas estatísticas de rotina, apenas rotinas estatísticas questionáveis


1
Você fornece boas informações relacionadas, mas acho que, em resposta à pergunta chl, o OP deixou claro que ele está falando sobre dados categóricos que não são ordinais. Portanto, sua resposta não é realmente uma resposta, mas não sou eu quem daria um voto negativo. Mas acho que você deve mudar para um comentário.
Michael R. Chernick

1
Não, não vou votar de forma negativa a resposta, pois acho que ela agregou algum valor ao meu entendimento limitado. Deveria ter deixado claro na minha descrição que estou considerando as estatísticas Resumo Ordinal e Nominal, portanto a culpa é minha.
chutsu 23/07/12

5

Como foi mencionado, as médias, os SDs e os pontos de articulação não são significativos para dados categóricos. Os pontos de articulação (por exemplo, mediana e quartis) podem ser significativos para dados ordinais. Seu título também pergunta quais estatísticas de resumo devem ser usadas para descrever dados categóricos. É padrão caracterizar dados categóricos por contagens e porcentagens. (Você também pode incluir um intervalo de confiança de 95% em torno das porcentagens.) Por exemplo, se seus dados fossem:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Você pode resumi-los da seguinte forma:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

Se você possui variáveis ​​nominais, não há função de pedido ou distância. Então, como você pode definir qualquer estatística resumida mencionada? Eu acho que você não pode. Quartis e alcance exigem pelo menos pedidos e meios e variações requerem dados numéricos. Penso que gráficos de barra e gráfico de pizza são exemplos típicos das maneiras apropriadas de resumir variáveis ​​qualitativas que não são ordinais.


3
@ PeterFlom Meu argumento não era listar todos os procedimentos gráficos possíveis para resumir dados qualitativos. Eu realmente quero enfatizar que é realmente a proporção que pode ser comparada e a maneira como as proporções são distribuídas pelas categorias. Para reconhecer visualmente as diferenças de proporções, acho que os gráficos de barras são mais fáceis de visualizar do que os gráficos de pizza, mas são apenas duas maneiras populares de resumir dados categóricos. Não quero dizer que eles são os melhores, pois não estou familiarizado com todos os métodos disponíveis.
Michael R. Chernick

7
Eles são certamente populares! Mas acho que é parte de nossa responsabilidade, como especialistas na área, tornar os gráficos de pizza menos populares.
Peter Flom - Restabelece Monica

3
Cleveland mostrou, primeiro, que as pessoas são piores ao perceber a medição angular do que a distância linear. Segundo, a alteração das cores em um gráfico de pizza mudou a percepção das pessoas sobre o tamanho das fatias. Terceiro, a rotação do gráfico de pizza mudou a percepção das pessoas sobre o tamanho das fatias. Quarto, as pessoas tinham problemas para encomendar as fatias da maior para a menor, a menos que tivessem tamanhos muito diferentes. Os gráficos de pontos de Cleveland evitam tudo isso.
Peter Flom - Restabelece Monica

6
@ Michael "Uma tabela é quase sempre melhor que um gráfico de pizza idiota; o único design pior do que um gráfico de pizza é vários deles ... gráficos de pizza nunca devem ser usados." - Tufte. "Os dados que podem ser mostrados por gráficos de pizza sempre podem ser mostrados por um gráfico de pontos. ... na década de 1920, travou-se uma batalha nas páginas da JASA sobre os méritos relativos dos gráficos de pizza e gráficos de barras divididos ... ambos os campos perdem porque outros gráficos têm desempenho muito melhor do que os gráficos de barras divididos ou gráficos de pizza. "- Cleveland. Como você sabe, Cleveland não é prescritivo: é tão forte quanto ele consegue sobre qualquer coisa.
whuber

6
BTW, @ Michael, eu concordo com você e com os argumentos que você está apresentando neste tópico (o que acho convincente e bem apresentado), mas como moderador, tenho que transmitir fortes objeções expressadas pelos membros da comunidade com relação ao "tom de voz" você está adotando. Por favor, siga a etiqueta do site: atenha-se ao assunto e não ataque outros. Nem escreva coisas que possam parecer um ataque, mesmo de brincadeira. É claro que a mesma advertência se estende a todos.
whuber

2

O modo ainda funciona! Essa não é uma estatística resumida importante? (Qual é a categoria mais comum?) Acho que a sugestão mediana tem pouco ou nenhum valor como estatística, mas o modo tem.

Também contar distintos seria valioso. (Quantas categorias você possui?)

Você pode criar proporções, como (categoria mais comum) / (categoria menos comum) ou (categoria 1 mais comum) / (categoria 2 mais comum). Também (categoria mais comum) / (todas as outras categorias), como a regra 80/20.

Você também pode atribuir números às suas categorias e enlouquecer com todas as estatísticas usuais. AA = 1, Hisp = 2, etc. Agora você pode calcular média, mediana, modo, DP, etc.


0

Aprecio as outras respostas, mas parece-me que algum background topológico daria uma estrutura muito necessária para as respostas.

Definições

Vamos começar estabelecendo as definições dos domínios:

  • variável categórica é aquela cujo domínio contém elementos, mas não há relacionamento conhecido entre eles (portanto, temos apenas categorias). Os exemplos dependem do contexto, mas eu diria que, no caso geral, é difícil comparar os dias da semana: é segunda-feira antes de domingo; se sim, e a próxima segunda-feira? Talvez um exemplo mais fácil, mas menos usado, sejam as peças de roupa: sem fornecer algum contexto que daria sentido a uma ordem, é difícil dizer se as calças vêm antes dos saltadores ou vice-versa.

  • A variável ordinal é aquela que tem uma ordem total definida sobre o domínio, ou seja, para cada dois elementos do domínio, podemos dizer que eles são idênticos ou um é maior que o outro. Uma escala Likert é um bom exemplo de definição de uma variável ordinal. "concordo um pouco" é definitivamente mais próximo de "concordo totalmente" do que "discordo".

  • A variável de intervalo é aquela cujo domínio define distâncias entre elementos (uma métrica ), permitindo assim definir intervalos.

Exemplos de domínio

Como o conjunto mais comum que usamos, os números naturais e reais têm ordem e métricas totais padrão. É por isso que precisamos ter cuidado ao atribuir números às nossas categorias. Se não formos cuidadosos em desconsiderar a ordem e a distância, praticamente convertemos nossos dados categóricos em dados de intervalo. Quando alguém usa um algoritmo de aprendizado de máquina sem saber como ele funciona, corre o risco de fazer tais suposições de má vontade, potencialmente invalidando seus próprios resultados. Por exemplo, os algoritmos mais populares de aprendizado profundo trabalham com números reais, aproveitando o intervalo e as propriedades contínuas. Outro exemplo, pense nas escalas Likert de 5 pontos, e como a análise que aplicamos nelas pressupõe que a distância entre concordo plenamente e concordoé o mesmo que discordar e nem concordar nem discordar . Difícil argumentar sobre esse relacionamento.

Outro conjunto com o qual frequentemente trabalhamos é as cordas . Existem várias métricas de similaridade de string que são úteis ao trabalhar com strings. No entanto, estes nem sempre são úteis. Por exemplo, para endereços, John Smith Street e John Smith Road são bastante próximos em termos de similaridade de cadeias, mas obviamente representam duas entidades diferentes que podem estar separadas por quilômetros.

Estatísticas resumidas

Ok, agora vamos ver como algumas estatísticas resumidas se encaixam nisso. Como a estatística trabalha com números, suas funções são bem definidas em intervalos. Mas vamos ver exemplos sobre se / como podemos generalizá-los para dados categóricos ou ordinais:

  • mode - tanto ao trabalhar com dados categóricos quanto ordinais, podemos dizer qual elemento é usado com mais frequência. Então nós temos isso. Também podemos derivar todas as outras medidas que o @Maddenker lista em suas respostas. O intervalo de confiança do @gung também pode ser útil.
  • mediana - como @ peter-flom diz, desde que você tenha um pedido, você pode derivar sua mediana.
  • média , mas também desvio padrão, percentis etc. - você os obtém apenas com dados de intervalo, devido à necessidade de uma métrica de distância.

Exemplo de contextualidade dos dados

No final, quero enfatizar novamente que a ordem e as métricas definidas em seus dados são muito contextuais. Isso deve estar óbvio agora, mas deixe-me dar um último exemplo: ao trabalhar com localizações geográficas, temos várias maneiras diferentes de abordá-las:

  • se estivermos interessados ​​na distância entre eles, podemos trabalhar com sua geolocalização, o que basicamente nos dá um espaço numérico bidimensional, portanto intervalo.
  • se estivermos interessados ​​na parte do relacionamento, podemos definir uma ordem total (por exemplo, uma rua faz parte de uma cidade, duas cidades são iguais, um continente contém um país)
  • se estivermos interessados ​​em saber se duas cadeias representam o mesmo endereço, poderíamos trabalhar com alguma distância de cadeia que tolerasse erros de ortografia e trocando posições de palavras, mas certifique-se de distinguir diferentes termos e nomes. Isso não é uma coisa fácil, mas apenas para defender o caso.
  • Existem muitos outros casos de uso que todos nós encontramos diariamente, onde nada disso faz sentido. Em alguns deles, nada mais há a fazer do que tratar os endereços como apenas categorias diferentes; em outros, tudo se resume a modelagem e pré-processamento de dados muito inteligentes.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.