Definindo quantis sobre uma amostra ponderada

Eu tenho uma amostra ponderada, para a qual desejo calcular quantis. ¹

Idealmente, onde os pesos são iguais (seja = 1 ou não), os resultados seriam consistentes com os de scipy.stats.scoreatpercentile()e R's quantile(...,type=7).

Uma abordagem simples seria "multiplicar" a amostra usando os pesos fornecidos. Isso efetivamente fornece um ecdf localmente "plano" nas áreas de peso> 1, que intuitivamente parece a abordagem errada quando a amostra é realmente uma subamostra. Em particular, isso significa que uma amostra com pesos iguais a 1 possui quantis diferentes de uma amostra com pesos iguais a 2 ou 3. (Observe, no entanto, que o artigo mencionado em [1] parece usar essa abordagem).

http://en.wikipedia.org/wiki/Percentile#Weighted_percentile fornece uma formulação alternativa para o percentil ponderado. Não está claro nesta formulação se amostras adjacentes com valores idênticos devem primeiro ser combinadas e seus pesos somados e, em qualquer caso, seus resultados não parecem ser consistentes com o tipo padrão de R 7 quantile()no caso não ponderado / igualmente ponderado. A página da Wikipedia sobre quantis não menciona o caso ponderado.

Existe uma generalização ponderada da função quantil "tipo 7" de R?

[usando Python, mas apenas procurando por um algoritmo, realmente, qualquer linguagem serve]

[1] Pesos são inteiros; os pesos são os dos buffers combinados nas operações "recolhimento" e "saída", conforme descrito em http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf . Essencialmente, a amostra ponderada é uma subamostragem da amostra completa não ponderada, com cada elemento x (i) na subamostra representando elementos de peso (i) na amostra completa.

algorithms quantiles weighted-sampling

— Misha
fonte

Tópico é bastante antiga, mas aqui é o código numpy para quantiles ponderada stackoverflow.com/a/29677616/498892

— Alleo

Esta é uma abordagem possível:

Suponhamos que você tenha uma amostra ordenada com os respectivos pesos . $X_1 \le X_2 \le \cdots \le X_n$ $W_1, W_2, \ldots, W_n$

Defina então e .

S_{k} = (k - 1) W_{k} + (N - 1) \sum_{Eu = 1}^{k - 1} W_{Eu}

$S_k = (k-1) W_k+ (N-1) \sum_{i=1}^{k-1} W_i$

S_{1} = 0

$S_1=0$

S_{n} = (N - 1) \sum_{i = 1}^{N} W_{i}

$S_n = (N-1) \sum_{i=1}^{N} W_i$

Para uma interpolação do quantil , encontre tal que . Sua estimativa pode então ser $p$ $k$ $\frac{S_k}{S_n} \le p \le \frac{S_{k+1}}{S_n}$

X_{k} + (X_{k + 1} - X_{k}) \frac{p S_{n} - S_{k}}{S_{k + 1} - S_{k}} .

$X_k + (X_{k+1}-X_k)\frac{pS_n-S_k}{S_{k+1}-S_k}.$

Acho que você descobrirá que, se os são todos iguais, isso reproduz o R-7. Também existem outras abordagens, mas suspeito que elas não tratam todos os pesos ordenados como sendo igualmente importantes. $W_i$

— Henry
fonte

Pode haver um problema se dois valores na amostra forem iguais, mas tiverem pesos diferentes - ainda não pensei nisso.

— Henry