Quartis no Excel


10

Estou interessado na definição de quartil que geralmente é usada quando você está em estatística básica. Eu tenho um livro do tipo Stat 101 e apenas fornece uma definição intuitiva. "Cerca de um quarto dos dados cai no ou no primeiro quartil ..." Mas, dá um exemplo em que calcula Q1, Q2 e Q3 para o conjunto de dados

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

Como existem 15 dados, ele escolhe 15 como a mediana, Q2. Em seguida, divide os dados restantes em duas metades, de 5 a 14 e de 16 a 37. Cada um deles contém 7 dados e encontram a mediana de cada um desses conjuntos, 10 e 18, como Q1 e Q3, respectivamente. É assim que eu próprio calcularia.

Eu olhei para o artigo da Wikipedia e dá dois métodos. Alguém concorda com o exposto acima e diz que você também pode incluir a mediana 15 em ambos os conjuntos (mas você não incluiria a mediana se fosse a média dos dois números do meio no caso de um número par de pontos de dados). Tudo isso faz sentido para mim.

Mas, verifiquei o Excel para ver como o Excel calcula. Estou usando o Excel 2010, que possui 3 funções diferentes. O quartil estava disponível em 2007 e versões anteriores. Parece que eles querem que você pare de usar isso em 2010, mas ainda está disponível. Quartile.Inc é novo, mas concorda exatamente com Quartile, tanto quanto eu posso dizer. E há o Quartile.Exc também. Ambos os dois últimos são novos em 2010, acredito. Dessa vez, tentei usar os números inteiros 1, 2, 3, ..., 10. Espero que o Excel dê mediana de 5,5, Q1 de 3 e Q3 de 8. O método do livro de estatísticas também como os dois métodos da Wikipedia dariam essas respostas, já que a mediana é a média dos dois números do meio. Excel dá

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

Nenhuma delas concorda com o que eu falei anteriormente.

As descrições no arquivo de ajuda para o Excel são:

Quartile.Inc - Retorna o quartil de um conjunto de dados, com base em valores de percentil de 0..1, inclusive.

Quartile.Exc - Retorna o quartil do conjunto de dados, com base em valores de percentil de 0..1, exclusivos.

Alguém pode me ajudar a entender essa definição que o Excel está usando?


5
Outro ótimo exemplo de por que não usar o Excel para qualquer coisa estatística. :-)
Wayne

11
Amigos não permitem que eles usem o Excel para estatísticas. Triste, mas verdade #
Chris Beeley

Respostas:


11

Normalmente, uma classificação (entre e para dados) é convertida em uma porcentagem através da fórmula1 n n pr1nnp

p=100rαn+12α

para alguma "posição de plotagem" predeterminada entre e , inclusive. A resolução de em termos de dá0 1 r pα01rp

r=(n+12α)(p/100)+α.

O Excel historicamente usou para suas funções eα=1PERCENTILEQUARTILE . A documentação on-line para QUARTILE.INCe QUARTILE.EXCé inútil, por isso temos de fazer engenharia reversa que essas funções estão fazendo.

Por exemplo, com dados , dispomos de e para os três quartis. O uso de na fórmula anterior gera classificações de , e , reproduzindo os resultados para .n = 10 p { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 =(1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19(0.25)+1=3.259(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

Se, em vez disso, definirmos as classificações correspondentes serão , e , reproduzindo os resultados para .11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

Testes adicionais da sua parte (não tenho uma versão recente do Excel) podem estabelecer a validade do meu palpite de que essas duas versões da função quartil são determinadas por esses dois valores (extremos) deα .

A propósito, classificações fracionárias são convertidas em valores de dados por meio de interpolação linear. O processo é explicado e ilustrado nas anotações do meu curso em Percentis e parcelas do FED - veja na parte inferior da página. Há também um link para uma planilha do Excel que ilustra os cálculos.

Se você deseja implementar uma função de percentil geral no Excel , aqui está uma macro VBA para fazer isso:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

Ele converte um percentual nominal (como 25/100) no percentual que faria com que a PERCENTILEfunção do Excel retornasse o valor desejado. Destina-se ao uso em fórmulas celulares, como em =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).


Observe que, depois de entender exatamente o que o Excel está fazendo, você poderá usá-lo efetivamente para o trabalho estatístico.
whuber

5
Se eu discordar com humor do seu comentário: o Excel pode ser usado efetivamente para trabalhos estatísticos, se você é um assistente estatístico que pode provar, desde os primeiros princípios, o que deve ser feito, faça uma engenharia reversa dos métodos do Excel para determinar o que está realmente fazendo. Quando você é tão bom, quase todas as ferramentas servem. Embora eu também indique que, neste segmento, 100% dos assistentes envolvidos nesta discussão até agora não têm acesso à versão mais recente do Excel, portanto é improvável que realmente o usem.
Wayne

Touche ', @Wayne. (Mas alguns de nós ainda usam versões mais antigas do Excel :-).)
whuber

11
Whuber, obrigado por compartilhar a solução VBA. Isso será extremamente útil. Como alguém que precisa fazer Stats, mas está preso ao Excel como a única ferramenta prontamente disponível (sim, eu tentei o R, mas não consigo entender direito), eu aprecio as ferramentas para ajudar a ajustar o Excel às minhas necessidades.
dav

4

Parece-me que o Excel quartile.incconcorda com o original quartile, que concorda com o padrão de R e outras definições.

Com uma dica útil do whuber, descobri que o Excel quartile.excparece concordar (no caso 1..10) com a type=6definição de quantil de R:

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

O que aparentemente responde à sua pergunta: "Sim, o Minitab e o SPSS fazem".


R não possui nove definições de quantis? (+1 para a edição, btw)
whuber

@ whuber: Não preste atenção ao homem atrás da cortina! (Vou editar a minha resposta Em uma análise mais aprofundada, que faz corresponder a uma das outras definições de R, que é, evidentemente, o Minitab e SPSS uso Graças..!)
Wayne

2

Eu acho que o sabor excêntrico do quartil é apenas ignorar o 5 e o 37 (mínimo e máximo nos dados originais).

No Stata, as versões padrão e alternativa fornecem valores quartile.exc com esses dados.


Esse palpite parece ser inconsistente com a documentação que afirma que o máximo e o mínimo podem realmente ser retornados por QUARTILE.EXC.
whuber

Na minha versão do Excel 2010, o QUARTILE.EXC (intervalo de células, k) retornará # NÚM! a menos que k = {1,2,3}, que corresponde aos percentis 25, 50 e 75, de acordo com o menu pop-up exibido. O QUARTILE original também aceitará 0 e 4 como o segundo argumento, que corresponde ao mínimo e ao máximo.
Dimitriy V. Masterov

11
A documentação afirma "Se quart ≤ 0 ou se quart ≥ 4, QUARTILE.EXC retornará o valor de erro # NÚM !." Isso parece verdade. A segunda instrução "MIN, MEDIAN e MAX retornam o mesmo valor que QUARTILE.EXC quando quart é igual a 0 (zero), 2 e 4, respectivamente" parece falso, a menos que esteja faltando alguma coisa. Que bagunça!
Dimitriy V. Masterov

+1 Obrigado por verificar isso, Dimitriy! De facto, a única diferença entre a minha suposição e seu (que efectivamente se transforma em e subtrai a partir de cada posto) é que a fórmula realmente deve retornar o mínimo e o máximo para os 0 e 100 percentis, respectivamente, em vez de , assim parece que sua caracterização é a melhor (ainda que minha caracterização forneça justificativa para a sua). Gostaria de saber o que a função atual do Excel faz? :-)n - 1 1nn11#NUM!PERCENTILE
whuber

11
Os três sabores do percentil se comportam da mesma maneira que o quartil para mim. Para os dados de 5-37, PERCENTILE.EXC (intervalo, k) fornece # NÚM! para k = {0,1}. Para k = 0,25, PERCENTILE.EXC fornece 10. Se eu jogar fora 5 e 37, ele fornecerá 10,5, o que concorda com as outras 2 maneiras.
Dimitriy V. Masterov

2

Muitas coisas interessantes e detalhadas, mas voltando à pergunta original, não vejo que duas maneiras ligeiramente diferentes que possam não dar exatamente a mesma resposta sejam realmente importantes. O primeiro quatile é o ponto em que 25% das observações se enquadram nele ou abaixo dele. Dependendo do tamanho da amostra, esse pode ou não ser um ponto exato nos dados. Portanto, se um ponto está abaixo e o próximo acima, esse primeiro quartil não está muito bem definido e qualquer ponto entre esses dois pode servir igualmente bem. O mesmo vale para a mediana quando o tamanho da amostra é uniforme. A regra escolhe o ponto médio entre os pontos de dados abaixo e acima. Mas nada realmente diz que a escolha dada pela regra é realmente melhor do que qualquer outro ponto.


α1/31/2

0

Para aqueles que usam o Excel, há uma boa descrição dos diferentes métodos de versão aqui http://peltiertech.com/WordPress/comparison/


2
Seria melhor se você pudesse resumi-los em sua resposta. Embora o link possa responder à pergunta, às vezes eles ficam desatualizados. Nesse caso, sua resposta não será útil para futuros leitores.
Andy

0

no excel 2016 notei que é possível obter valores corretos de quartis se:

  • O conjunto de dados possui um número ímpar de entradas: use QUARTILE.EXC
  • O conjunto de dados possui um número par de entradas: use a média de QUARTILE.EXC e QUARTILE.INC

11
Dadas quantas definições de quantis existem, como evidenciado em algumas das outras respostas, você pode explicar o que quer dizer com os valores corretos?
Mdewey # 30/18
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.