Ao pensar em um histograma como uma estimativa da função de densidade, é razoável pensar no tamanho da caixa como um parâmetro que restringe a estrutura local dessa função?
Além disso, existe uma maneira melhor de articular esse raciocínio?
Ao pensar em um histograma como uma estimativa da função de densidade, é razoável pensar no tamanho da caixa como um parâmetro que restringe a estrutura local dessa função?
Além disso, existe uma maneira melhor de articular esse raciocínio?
Respostas:
Sim, é uma maneira razoável de pensar sobre isso (supondo que o histograma esteja normalizado para obter um pdf adequado). A largura da bandeja restringe a suavidade da estimativa de densidade (falando livremente, pois os histogramas são funções descontínuas). Ele controla até que ponto uma estrutura mais fina pode ser modelada e também até que ponto as flutuações aleatórias nos dados afetam a estimativa. Ela desempenha um papel semelhante à largura do núcleo na estimativa da densidade do núcleo e aos hiperparâmetros que controlam o tamanho das folhas nas árvores de decisão.
Para ser um pouco mais específico, a largura do escaninho é um hiperparâmetro que controla a troca da variação de polarização. Reduzir a largura da lixeira diminui o viés porque permite uma representação mais refinada - os histogramas com bandejas mais estreitas formam uma classe mais rica de funções que podem aproximar melhor a distribuição verdadeira / subjacente. Porém, aumenta a variação porque menos pontos de dados estão disponíveis para estimar a altura de cada compartimento - os histogramas com compartimentos mais estreitos são mais sensíveis a flutuações aleatórias nos dados e variam mais com os conjuntos de dados extraídos da mesma distribuição subjacente. Uma boa largura do compartimento equilibra esses efeitos opostos para fornecer uma estimativa de densidade que melhor corresponda à distribuição subjacente.
Para mais detalhes, consulte:
Scott (1979) . Em histogramas ótimos e baseados em dados.
Shalizi (2009) . Estimando distribuições e densidades [notas do curso]
Os estimadores de densidade de kernel são muitas vezes racionalizados como uma versão "contínua" de um histograma. Muitos livros sobre estimativa não paramétrica de kernel também discutem histogramas. Veja, por exemplo, o capítulo 2 em Racine, Jeffrey S. " Econometria não paramétrica: uma cartilha ". Foundations and Trends® in Econometrics 3.1 (2008): 1-88.
É razoável, porque o que você faz colocando amostras em lixeiras está aproximando os dados. Na minha experiência, dependendo do seu objetivo e dos dados disponíveis, esses compartimentos podem variar drasticamente e ter um grande impacto em como os dados são tratados ainda mais. Em alguns casos, você pode não precisar de muitos compartimentos ou talvez não tenha dados, para poder ver a curva geral. Por outro lado, se a aproximação for muito forte, você poderá perder alguns detalhes, como min e máx. Locais ou a estrutura. Por exemplo, você pode usar a seguinte função:
E compare o histórico para 100 e 8 posições
Há uma clara diferença entre a complexidade da estrutura. Se estamos falando sobre a função densidade, é claro que você deve escolher a segunda opção para uma curva mais suave, sem valores extremos, como na primeira imagem.
Normalmente, prefiro usar a regra Freedman – Diaconis como regra geral para escolher a opção padrão. número de posições e, em seguida, ajuste-a considerando a tarefa.