Os comentários no código parecem acabar definindo os dois essencialmente de forma idêntica (além de uma diferença relativamente pequena na constante).
Ambos são da forma c A n- 1 / 5 , ambas com o que parece ser o mesmo UMA (estimativa de escala), e c é muito próximo de 1 (parente próximo à incerteza típica da estimativa da largura de banda máxima) .
[A estimativa binwdith que mais geralmente parece estar associado com Scott é o um do seu papel 1979 [1] ( 3,49 s n- 1 / 3 ) - por exemplo, ver Wikipedia - rolagem para baixo um pouco - ou R de nclass.scott
.]
O 1.059 no que o código chama de "estimativa Scott" está no livro (anterior) de Silverman (consulte a página 45 da referência Silverman no seu link - a derivação de Scott está na página 130-131 do livro a que se refere). Vem de uma estimativa da teoria normal.
A largura de banda ideal (em termos de erro quadrático médio integrado) é uma função da segunda derivada ao quadrado integrada e 1.059 σ sai desse cálculo para um normal, mas em muitos casos isso é muito mais amplo do que o ideal para outras distribuições.
O termo UMA é uma estimativa de σ (tipo de estimativa robusta, de uma maneira que reduz a tendência a ser muito grande se houver valores extremos / distorção / caudas pesadas). Veja a eq 3.30 na p47, justificada na p46-7.
Por razões semelhantes às sugeridas anteriormente, Silverman sugere a redução de 1,059 (na verdade, ele usa 1,06 por toda parte, e não 1,059 - como Scott em seu livro). Ele escolhe um valor reduzido que não perde mais de 10% de eficiência no IMSE no normal, de onde vem o 0,9.
Portanto, ambas as larguras de caixa são baseadas na largura de caixa ideal para IMSE no normal, uma no ideal e a outra (cerca de 15% menor, para ficar dentro de 90% da eficiência do ideal no normal). [Eu chamaria as duas estimativas de "Silverman". Não faço ideia por que eles nomeiam o 1.059 para Scott.]
Na minha opinião, ambos são grandes demais. Não uso histogramas para obter estimativas ótimas de IMSE da densidade. Se isso (obter estimativas da densidade ideal no sentido IMSE) fosse o que eu queria fazer, não gostaria de usar histogramas para esse fim.
Os histogramas devem estar errados no lado mais ruidoso (deixe o olho fazer a suavização necessária). Quase sempre dobro (ou mais) o número padrão de posições que esses tipos de regra fornecem. Portanto, eu não usaria 1,06 ou 0,9, tenderia a usar algo em torno de 0,5, talvez menos em tamanhos de amostra realmente grandes.
Há realmente muito pouco a escolher entre eles, uma vez que ambos oferecem escassos escaninhos para serem muito úteis para encontrar o que está acontecendo nos dados (nos quais, pelo menos em pequenos tamanhos de amostra, veja aqui) .
[1]: Scott, DW (1979), "On histogramas ótimos e baseados em dados" , Biometrika , 66 , 605-610.