Recuperando largura mínima que contém fração especificada de todos os valores


8

Gostaria de encontrar os limites mínimo / máximo de uma janela deslizante de tamanho mínimo que contém uma certa fração do número total de elementos em uma matriz ou coleção de números.

Exemplo: usando números inteiros para facilitar a explicação, digamos que a proporção de elementos que procuramos seja de 50% nessa matriz:

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

A função misteriosa retornaria algo como (2, 4), significando que o valor mínimo é 2 e o valor máximo é 4 (suponha que seja inclusivo e observe que esses são VALUES, não índices). Essa pequena janela contém 8 dos 16 valores e tem apenas 2 unidades de largura, a janela mais estreita que contém metade do número de valores.

Nota: os quartis são [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10], portanto, NÃO são o que eu estou procurando.

Eu posso codificá-lo ... pode levar algum tempo para ser agradável. Espero que alguém já tenha passado por isso antes. Isso tem um nome? Existe um método existente que alguém conhece?

Estou interessado em implementações Python.

ATUALIZAR:

Graças a Glen_b, que deu os nomes 'metade curta' e 'intervalo mais curto', eu pude pensar nisso: Encontre intervalos de densidade de probabilidade


1
" Espero que seja bom colocar isso nas estatísticas E no stackoverflow " - É desencorajado, como a ajuda indica: " No entanto, note que a postagem cruzada não é incentivada nos sites do SE. Escolha um melhor local para enviar sua pergunta. Posteriormente , se for mais adequado em outro site, poderá ser migrado. ". Então escolha um, apague o outro.
Glen_b -Reinstala Monica

Quando chega a 50%, esse intervalo é chamado às vezes de metade curta . Em geral, às vezes pode ser chamado de intervalo mais curto.
Glen_b -Reinstate Monica

oops. obrigado pela atenção. Eu removi a postagem no stackoverflow. Eu vou procurar 'metade curta' '
user1269942 18/11/2013

(olhando para o link) Curiosamente, eu debati mencionar intervalos de HPD, mas eles realmente se aplicam a distribuições; Presumi que as pessoas não aplicariam o mesmo termo às amostras, mas não conseguiram encontrar o que deveriam ser chamadas. Acontece que eu estava errado.
Glen_b -Reinstate Monica

Aliás, o que você acha que são quartis não são quartis, mas os dados entre quartis consecutivos (e abaixo / acima do primeiro e terceiro respectivamente)
Glen_b -Reinstates Monica

Respostas:


12

Notícias:

  • Uma palavra-chave é shorth .

  • Para uma implementação R e links para um projeto atual com publicações, consulte a página de Günther Sawitzki em http://www.statlab.uni-heidelberg.de/people/gs/

  • Existe uma implementação Stata, que pode ser instalada por ssc inst shorth.

Mais devagar e sem tentar fazer justiça ao trabalho de Sawitzki:

nx

x(1)x(2)x(n1)x(n).

h=n/2kk+hx(k+h)x(k)k=1,,nh

x(k),,x(k+h)

(x(k)+x(k+h))/2x. Veja Rousseeuw (1984) e Rousseeuw e Leroy (1987) para aplicações do LMS e idéias relacionadas à regressão e outros problemas. Observe que esse ponto médio do LMS também é chamado de shorth em algumas publicações recentes (por exemplo, David e Nagaraja 2003, p.223; Maronna, Martin e Yohai 2006, p.48). Além disso, a metade mais curta em si também é às vezes chamada de shorth, como indica o título de Grübel (1988).

O comprimento da metade mais curta é uma medida robusta de escala ou spread: ver Rousseeuw e Leroy (1988), Grübel (1988), Rousseeuw e Croux (1993) e Martin e Zamar (1993) para análises e discussões adicionais.

O comprimento da metade mais curta em um Gaussiano (normal) com média 0 e desvio padrão 1 é de 1,349 a 3 dp. Assim, para estimar o desvio padrão do comprimento observado, divida por esse comprimento gaussiano.

Alguns comentários gerais seguem as vantagens e desvantagens das meias idéias mais curtas, do ponto de vista de analistas de dados práticos, tanto quanto estatísticos matemáticos ou teóricos. Qualquer que seja o projeto, será sempre prudente comparar os resultados do shorth com as medidas sumárias padrão (incluindo outros meios, principalmente os meios geométricos e harmônicos) e relacionar os resultados aos gráficos de distribuição. Além disso, se o seu interesse estiver na existência ou extensão da bimodalidade ou multimodalidade, será melhor examinar diretamente estimativas adequadamente suavizadas da função de densidade.

  • Simplicidade A idéia da metade mais curta é simples e fácil de explicar para estudantes e pesquisadores que não se consideram especialistas em estatística. Isso leva diretamente a duas medidas de localização e uma de propagação bastante intuitivas. Também é relativamente acessível o cálculo manual com ferramentas primitivas (lápis e papel, calculadoras, planilhas).

  • Conexões As semelhanças e diferenças entre o comprimento da metade mais curta, o intervalo interquartil e o desvio absoluto médio da mediana (MAD) (ou, nesse caso, o provável erro) são imediatas. Portanto, as meias ideias mais curtas estão ligadas a outras idéias estatísticas que já devem ser familiares para muitos analistas de dados.

  • Interpretação gráfica A metade mais curta pode ser facilmente relacionada a exibições padrão de distribuições, como distribuição cumulativa e parcelas quantílicas, histogramas e parcelas caule e folha.

  • Modo Ao calcular a média de onde os dados são mais densos, o shorth e também o ponto médio do LMS introduzem um sabor de modo no resumo da localização. Quando aplicado a distribuições que são aproximadamente simétricas, o shorth estará próximo da média e mediana, mas mais resistente que a média para outliers na cauda e mais eficiente que a mediana para distribuições próximas da forma gaussiana (normal). Quando aplicado a distribuições unimodais e assimétricas, o shorth e o LMS estarão tipicamente mais próximos do modo do que a média ou a mediana. Observe que a idéia de estimar o modo como o ponto médio do intervalo mais curto que contém um número fixo de observações remonta pelo menos a Dalenius (1965). Veja também Robertson e Cryer (1974), Bickel (2002) e Bickel e Frühwirth (2006) em outros estimadores do modo. O estimador do modo de meia amostra de Bickel e Frühwirth é especialmente interessante como uma seleção recursiva da metade mais curta. Os usuários Stata podem baixar uma implementação Statassc inst hsmode.

  • Identificação de outlier Uma padronização resistente como (valor - valor) / comprimento pode ajudar na identificação de outliers. Para discussões de idéias relacionadas, consulte Carey et al. (1997) e incluiu referências.

  • Generalizar para a fração mais curta A idéia pode ser generalizada para proporções diferentes da metade.

Ao mesmo tempo, observe que

  • Não é útil para todas as distribuições Quando aplicado a distribuições com formato aproximadamente J, o shorth aproximará a média da metade inferior dos dados e o ponto médio do LMS será um pouco maior. Quando aplicado a distribuições que são aproximadamente em forma de U, o shorth e o ponto médio do LMS estarão dentro da metade da distribuição que tiver maior densidade média. Nenhum comportamento parece especialmente interessante ou útil, mas igualmente há pouca necessidade de resumos em modo único para distribuições em forma de J ou em U; para formas J, o modo é, ou deveria ser, o mínimo e para formas U, a bimodalidade faz com que a idéia de um modo único seja discutida, se não for inválida.

  • Gravatas A metade mais curta pode não ser definida de forma única. Mesmo com os dados medidos, o arredondamento dos valores relatados pode frequentemente gerar vínculos. O que fazer com duas ou mais metades mais curtas tem sido pouco discutido na literatura. Observe que as metades amarradas podem se sobrepor ou ser desunidas. Implementações diferentes podem resolver isso de maneiras ligeiramente diferentes.

  • 1+n/2nnn=1n=2n/21+n/2

  • Uso com dados ponderados A identificação da metade mais curta parece estender-se apenas bastante confusa às situações em que as observações estão associadas a pesos desiguais.

  • Comprimento quando a maioria dos valores é idêntico Quando pelo menos metade dos valores em uma amostra é igual a alguma constante, o comprimento da metade mais curta é 0. Portanto, por exemplo, se a maioria dos valores é 0 e alguns são maiores, o comprimento do menor metade não é particularmente útil como medida de escala ou spread.

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers e JW Tukey. 1972. Estimativas robustas de localização: pesquisa e avanços. Princeton, NJ: Princeton University Press.

Bickel, DR 2002. Estimadores robustos do modo e assimetria dos dados contínuos. Estatística Computacional e Análise de Dados 39: 153-163.

Bickel, DR e R. Frühwirth. 2006. Em um estimador rápido e robusto do modo: comparações com outros estimadores com aplicações. Estatística Computacional e Análise de Dados 50: 3500-3530.

Carey, VJ, EE Walters, CG Wager e BA Rosner. 1997. Rejeição outlier resistente e baseada em teste: efeitos na inferência gaussiana de uma e duas amostras. Technometrics 39: 320-330.

Christmann, A., U. Gather e G. Scholz. 1994. Algumas propriedades do comprimento da metade mais curta. Statistica Neerlandica 48: 209-213.

Dalenius, T. 1965. O modo - Um parâmetro estatístico negligenciado. Journal, Royal Statistical Society A 128: 110-117.

Grübel, R. 1988. O comprimento do shorth. Annals of Statistics 16: 619-628.

Hampel, FR 1975. Além dos parâmetros de localização: conceitos e métodos robustos. Boletim, International Statistical Institute 46: 375-382.

Hampel, FR 1997. Algumas notas adicionais sobre o "ano de robustez de Princeton". Em Brillinger, DR, LT Fernholz e S. Morgenthaler (eds) A prática da análise de dados: ensaios em homenagem a John W. Tukey. Princeton, NJ: Princeton University Press, 133-153.

Kim, J. e D. Pollard. 1990. Assintóticos da raiz do cubo. Annals of Statistics 18: 191-219.

Maronna, RA, RD Martin e VJ Yohai. 2006. Estatísticas robustas: teoria e métodos. Chichester: John Wiley.

Martin, RD e RH Zamar. 1993. Estimativa robusta de escala de viés. Annals of Statistics 21: 991-1017.

Robertson, T. e JD Cryer. 1974. Um procedimento iterativo para estimar o modo. Journal, American Statistical Association 69: 1012-1016.

Rousseeuw, PJ 1984. Mínima mediana da regressão de quadrados. Journal, American Statistical Association 79: 871-880.

Rousseeuw, PJ e C. Croux. 1993. Alternativas ao desvio médio absoluto. Journal, American Statistical Association 88: 1273-1283.

Rousseeuw, PJ e AM Leroy. 1987. Regressão robusta e detecção de outlier. Nova York: John Wiley.

Rousseeuw, PJ e AM Leroy. 1988. Um estimador de escala robusto baseado na metade mais curta. Statistica Neerlandica 42: 103-116.

Shorack, GR e JA Wellner. 1986. Processos empíricos com aplicações em estatística. Nova York: John Wiley.


Obrigado; Eu sabia que havia um termo abreviado quando mencionei a metade curta , mas não conseguia pensar no que era.
Glen_b -Reinstate Monica

3
+6 Post incrível: informativo, perspicaz e divertido de ler.
whuber

@whuber Muito obrigado; louvor do louvável é realmente louvor. É principalmente uma versão da documentação para minha implementação Stata, que pode ser baixada para usuários Stata ssc inst shorthe visível em econpapers.repec.org/software/bocbocode/s456728.html (usuários que não são da Stata não terão nada extra olhando para lá).
Nick Cox

muito agradável! desculpas por demorar tanto para aceitá-lo como a resposta ... ele desligou o radar rapidamente.
usar o seguinte comando
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.