Essa resposta se concentra inteiramente na estimativa de modo de uma amostra, com ênfase em um método específico. Se houver algum senso forte em que você já conheça a densidade, analítica ou numericamente, a resposta preferida é, resumidamente, procurar os máximos únicos máximos ou múltiplos diretamente, como na resposta de @Glen_b.
Os "modos de meia amostra" podem ser calculados usando a seleção recursiva da meia amostra com o menor comprimento. Embora tenha raízes mais longas, uma excelente apresentação dessa idéia foi feita por Bickel e Frühwirth (2006).
A idéia de estimar o modo como o ponto médio do intervalo mais curto que contém um número fixo de observações remonta pelo menos a Dalenius (1965). Veja também Robertson e Cryer (1974), Bickel (2002) e Bickel e Frühwirth (2006) em outros estimadores do modo.
nxx( 1 )≤ x( 2 )≤ ⋯ ≤ x( n - 1 )≤ x( N )
O modo de meia amostra é aqui definido usando duas regras.
n = 1x( 1 )n = 2( x( 1 )+ x( 2 )) / 2n = 3( x( 1 )+ x( 2 )) / 2x(1)x(2)x(2)x(3)(x(2)+x(3))/2x(2)
n≥43h1=⌊n/2⌋kk+h1x(k+h1)−x(k)k=1,⋯,n−h1h1+1h2=⌊h1/2⌋
x(k),⋯,x(k+h)h=⌊n/2⌋(xk+x(k+h))/2xshorth
Alguns comentários gerais seguem as vantagens e desvantagens dos modos de meia amostra, do ponto de vista de analistas de dados práticos, tanto quanto estatísticos matemáticos ou teóricos. Qualquer que seja o projeto, será sempre prudente comparar os resultados com as medidas sumárias padrão (por exemplo, medianas ou médias, incluindo médias geométricas e harmônicas) e relacionar os resultados aos gráficos de distribuição. Além disso, se o seu interesse estiver na existência ou extensão da bimodalidade ou multimodalidade, será melhor examinar diretamente estimativas adequadamente suavizadas da função de densidade.
Estimativa de modo Ao resumir onde os dados são mais densos, o modo de meia amostra adiciona um estimador automatizado do modo à caixa de ferramentas. As estimativas mais tradicionais do modo baseadas na identificação de picos nos histogramas ou mesmo nos gráficos de densidade do kernel são sensíveis a decisões sobre a origem ou largura do escaninho ou tipo de kernel e meia largura do kernel e mais difíceis de automatizar em qualquer caso. Quando aplicado a distribuições unimodais e aproximadamente simétricas, o modo de meia amostra estará próximo da média e da mediana, mas mais resistente que a média para os valores discrepantes em qualquer das caudas. Quando aplicado a distribuições unimodais e assimétricas, o modo de meia amostra estará tipicamente muito mais próximo do modo identificado por outros métodos que não a média ou a mediana.
Simplicidade A idéia do modo de meia amostra é bastante simples e fácil de explicar para estudantes e pesquisadores que não se consideram especialistas em estatística.
Interpretação gráfica O modo de meia amostra pode ser facilmente relacionado a exibições padrão de distribuições, como gráficos de densidade de kernel, distribuição cumulativa e plotagem de quantis, histogramas e plotagens de caule e folha.
Ao mesmo tempo, observe que
Não é útil para todas as distribuições Quando aplicado a distribuições com formato aproximadamente J, o modo de meia amostra aproximará o mínimo dos dados. Quando aplicado a distribuições que são aproximadamente em forma de U, o modo de meia amostra estará dentro da metade da distribuição que tiver maior densidade média. Nenhum comportamento parece especialmente interessante ou útil, mas igualmente há pouca necessidade de resumos de modo único para distribuições em forma de J ou em U. Para as formas em U, a bimodalidade faz com que a idéia de um modo único seja discutida, se não for inválida.
Gravatas A metade mais curta pode não ser definida de forma única. Mesmo com os dados medidos, o arredondamento dos valores relatados pode frequentemente gerar vínculos. O que fazer com duas ou mais metades mais curtas tem sido pouco discutido na literatura. Observe que as metades amarradas podem se sobrepor ou ser desunidas.
hsmode
tt⌈t/2⌉
−9,−4,−1,0,−1,4,9−0.501+⌊n/2⌋nn, o que é difícil de obter devido a outros desideratos, especialmente que o comprimento da janela nunca deve diminuir com o tamanho da amostra. Preferimos acreditar que este é um problema menor com conjuntos de dados de tamanho razoável.
1+⌊n/2⌋n; it is preferable that the rule be
simple; and there is usually some slight arbitrariness in choosing a rule
of this kind. It is also important that any rule behave reasonably for
small n: even if a program is not deliberately invoked for very small
sample sizes the procedure used should make sense for all possible sizes.
Note that, given n=1, the half-sample mode is just the single sample
value, and, given n=2, it is the average of the two sample values. A
further detail about this rule is that it always defines a slight majority,
thus enforcing democratic decisions about the data. However, there seems
no strong reason not to use ⌈n/2⌉ as an even simpler rule, except that if it makes much difference, then it is likely that your sample size
or variable is unsuitable for the purpose.
Robertson and Cryer (1974, p.1014) reported 35 measurements of uric acid
(in mg/100 ml): 1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66. The Stata implementation hsmode
reports a mode of 5.38. Robertson and Cryer's own estimates using a rather different procedure are 5.00,5.02,5.04. Compare with your favourite density estimation procedure.
Andrews, D.F., P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers and J.W.
Tukey. 1972. Robust estimates of location: survey and advances.
Princeton, NJ: Princeton University Press.
Bickel, D.R. 2002. Robust estimators of the mode and skewness of
continuous data. Computational Statistics & Data Analysis 39:
153-163.
Bickel, D.R. and R. Frühwirth. 2006. On a fast, robust estimator of the
mode: comparisons to other estimators with applications. Computational Statistics & Data Analysis 50: 3500-3530.
Dalenius, T. 1965. The mode - A neglected statistical parameter. Journal, Royal Statistical Society A 128: 110-117.
Grübel, R. 1988. The length of the shorth. Annals of Statistics 16:
619-628.
Hampel, F.R. 1975. Beyond location parameters: robust concepts and
methods. Bulletin, International Statistical Institute 46: 375-382.
Maronna, R.A., R.D. Martin and V.J. Yohai. 2006. Robust statistics: theory
and methods. Chichester: John Wiley.
Robertson, T. and J.D. Cryer. 1974. An iterative procedure for estimating
the mode. Journal, American Statistical Association 69: 1012-1016.
Rousseeuw, P.J. 1984. Least median of squares regression. Journal,
American Statistical Association 79: 871-880.
Rousseeuw, P.J. and A.M. Leroy. 1987. Robust regression and outlier
detection. New York: John Wiley.
This account is based on documentation for
Cox, N.J. 2007. HSMODE: Stata module to calculate half-sample modes, http://EconPapers.repec.org/RePEc:boc:bocode:s456818.
See also David R. Bickel's website here for information on implementations in other software.