Quando é que um histograma de compartimento uniforme é melhor que um histograma de compartimento não uniforme?
Isso requer algum tipo de identificação do que procuraríamos otimizar; muitas pessoas tentam otimizar o erro médio quadrático médio integrado, mas, em muitos casos, acho que isso deixa de fazer sentido um histograma; frequentemente (para os meus olhos) 'super-suaviza'; para uma ferramenta exploratória como um histograma, posso tolerar muito mais rugosidade, uma vez que a rugosidade propriamente dita me dá uma noção da extensão em que devo "suavizar" a olho; Costumo pelo menos dobrar o número usual de caixas de tais regras, às vezes muito mais. Costumo concordar com Andrew Gelman sobre isso; de fato, se meu interesse estava realmente recebendo um bom AIMSE, provavelmente não deveria considerar um histograma.
Então, precisamos de um critério.
Deixe-me começar discutindo algumas das opções de histogramas de área não iguais:
Existem algumas abordagens que suavizam (menos caixas maiores) em áreas de menor densidade e têm caixas mais estreitas onde a densidade é maior - como os histogramas de "área igual" ou "contagem igual". Sua pergunta editada parece considerar a possibilidade de contagem igual.
A histogram
função no lattice
pacote de R pode produzir barras de área aproximadamente igual:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Esse mergulho à direita da lixeira mais à esquerda é ainda mais claro se você tomar as quarta raízes; com compartimentos de largura igual, não é possível vê-lo, a menos que você use de 15 a 20 vezes mais compartimentos e, em seguida, a cauda direita parece terrível.
Há um histograma de contagem igual aqui , com código R, que usa quantis de amostra para encontrar as quebras.
Por exemplo, nos mesmos dados acima, aqui estão 6 caixas com (espero) 8 observações cada:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Esta pergunta do CV aponta para um artigo de Denby e Mallows cuja versão pode ser baixada daqui, que descreve um compromisso entre compartimentos de largura igual e compartimentos de área igual.
Ele também aborda as perguntas que você teve até certo ponto.
Talvez você possa considerar o problema como um dos que identificam as quebras em um processo de Poisson constante por partes. Isso levaria a funcionar assim . Há também a possibilidade relacionada de observar algoritmos do tipo clustering / classificação em (digamos) as contagens de Poisson, alguns dos quais algoritmos renderiam várias caixas. O agrupamento foi usado em histogramas 2D ( imagens , com efeito) para identificar regiões que são relativamente homogêneas.
-
Se tivéssemos um histograma de contagem igual e algum critério para otimizar, poderíamos tentar um intervalo de contagens por compartimento e avaliar o critério de alguma forma. O artigo de Wand mencionado aqui [ paper , ou working paper pdf ] e algumas de suas referências (por exemplo, os artigos de Sheather et al., Por exemplo) descrevem a estimativa da largura da bandeja "plug in" com base nas idéias de suavização do kernel para otimizar o AIMSE; de um modo geral, esse tipo de abordagem deve ser adaptável a essa situação, embora eu não me lembre de ter feito isso.