Podemos dizer que 50% dos dados estarão entre os percentis 25 e 75?

Digamos que temos o seguinte quadro de dados:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Estou um pouco confuso aqui. Se chegarmos ao 75º percentil, 75% dos dados deverão ficar abaixo desse percentil. E se conseguirmos o 25º percentil, 25% dos dados deverão ficar abaixo desse 25º. Agora, estou pensando que 50% dos dados devem estar entre 25 e 50. E também o percentil 50 me dá um valor diferente. Justo, o que significa que 50% dos dados devem estar abaixo desse valor. Mas minha pergunta é se minha abordagem está correta?

EDIT: E também podemos dizer que 98% dos dados estarão entre 1 e 99 do percentil?

quantiles statsmodels

— Don Coder
fonte

Sim, mas você também pode dizer que 50% dos dados não serão!

— James

Respostas:

Sim.

75% dos seus dados estão abaixo do percentil 75.
25% dos seus dados estão abaixo do 25º percentil.
Portanto, 50% (= 75% -25%) dos seus dados estão entre os dois, ou seja, entre os percentis 25 e 75.
Completamente por analogia, 98% dos seus dados estão entre o 1º e o 99º percentil.
E a metade inferior de seus dados, novamente 50%, está abaixo do percentil 50.

Esses números podem não estar completamente corretos, especialmente se você tiver um número baixo de dados. Note também que existem convenções diferentes sobre como os quantis e percentis são realmente calculados .

— Stephan Kolassa
fonte

outra razão pela qual seus números podem estar fora é quando você tem muitos laços (observações com o mesmo valor) #

— Maarten Buis

"Percentil usado mais comum" - você quer dizer que tipo de acordo com o typeargumento em R'squantile() ? Hyndman & Fan recomendam o tipo 7, que também é o padrão. Para ser sincero, as diferenças são mínimas. Ou você quer dizer qual porcentagem é comumente usada? Isso dependerá da sua inscrição. Não podemos ajudá-lo. E, é claro, quanto mais dados você obtiver, mais preciso será. Qual o nível de precisão suficiente dependerá dos seus dados e da sua aplicação.

— 31918 Stephan Stephanassass

Qual o nível que você precisa dependerá para o que você usará sua análise.

— 31918 Stephan Stephanassass

"Não está completamente correto, especialmente se você tiver um número baixo de dados." - pode valer a pena esclarecer isso, pois existem dois fatores que podemos ver em jogo: (1) o tamanho da amostra pode não ser exatamente divisível por 4 ou 100 ou o que for necessário para o quantil em questão; (2) os pontos de dados podem não ser únicos (por exemplo, para dados em um número inteiro, na escala de 1 a 5, é possível esperar muitos valores repetidos; nesse caso, os quartis podem se comportar muito mal em relação a propriedades como "50% dos dados" mentira acima da média" ou 'entre Q1 e Q3' e percentis são muitas vezes um desperdício de tempo)

— Silverfish

@StephanKolassa, parece Hyndman & Fan recomendado Tipo 8. (que também é mencionado em ?quantile.)

— Axeman

Idealmente, sim.

Os percentis são geralmente interpretados em termos da distribuição normal (como a normalidade geralmente é uma suposição subjacente, às vezes não declarada, ao calcular qualquer tipo de medidas estatísticas elementares). A distribuição não precisa ser normal, no entanto.

De acordo com este site ...

$X = \mu + Z \sigma$

Portanto, se assumimos a normalidade, podemos calcular facilmente qualquer percentil que estamos procurando. Os percentis não requerem suposições distributivas, no entanto, e estão vinculados aos dados a partir dos quais são calculados. Isso significa que os percentis podem fornecer parâmetros de referência significativos para distribuições normais e não normais. Você também pode usar percentis em uma interpretação de probabilidade, é claro, com base nas medições que você possui atualmente, que podem ser bons ou maus indicadores da verdadeira distribuição subjacente.

De acordo com este site ...

$P_{10}$ $P_{90}$ $p < P_{10}$ $p < P_{90}$ $p$ $P_{10} − P_{90}$

— ERT
fonte

Para ser sincero, não acho que sua ênfase na distribuição normal seja útil aqui. O PO está interessado apenas em percentis empíricos.

— 31919 Stephan Stephanassass

Concorde com @StephanKolassa, principalmente porque os dados de exemplo do OP não são normais.

— Wang Nuclear