A Wikipedia relata que, sob a regra de Freedman e Diaconis, o número ideal de posições em um histograma, deve crescer conforme
onde é o tamanho da amostra.
No entanto, se você observar a nclass.FD
função em R, que implementa essa regra, pelo menos com dados gaussianos e quando , o número de posições parece crescer a uma taxa mais rápida que , mais próximo de (na verdade, o melhor ajuste sugere ). Qual é a justificativa para essa diferença?n 1 / 3 n 1 - √ m≈n0,4
Editar: mais informações:
A linha é a linha OLS, com interceptação 0.429 e inclinação 0.4. Em cada caso, os dados ( x
) foram gerados a partir de um gaussiano padrão e alimentados no nclass.FD
. O gráfico mostra o tamanho (comprimento) do vetor versus o número ideal de classe retornado pela nclass.FD
função.
Citações da wikipedia:
Uma boa razão pela qual o número de compartimentos deve ser proporcional a é o seguinte: suponha que os dados sejam obtidos como n realizações independentes de uma distribuição de probabilidade limitada com densidade suave. Então, o histograma permanece igualmente "robusto", pois n tende ao infinito. Se é a »largura« da distribuição (por exemplo, o desvio padrão ou a faixa inter-quartil), então o número de unidades em um compartimento (a frequência) é da ordem o erro padrão relativo é da ordem . Comparando com o próximo compartimento, a mudança relativa da frequência é da ordem desde que a derivada da densidade seja diferente de zero. Esses dois são da mesma ordem se s n h / s √ h/shs/n 1 / 3 kn 1 / 3é da ordem , de modo que é da ordem .
A regra Freedman – Diaconis é: