Eu tenho dois conjuntos de dados representando parâmetros de estrelas: um observado e um modelado. Com esses conjuntos, crio o que é chamado de diagrama de duas cores (TCD). Uma amostra pode ser vista aqui:
A são os dados observados e B os dados extraídos do modelo (não importa as linhas pretas, os pontos representam os dados). Eu tenho apenas um diagrama A , mas posso produzir quantos diagramas B diferentes quiser e o que eu preciso é para manter aquele que melhor se encaixa a .
Então, o que eu preciso é de uma maneira confiável de verificar a qualidade do ajuste do diagrama B (modelo) ao diagrama A (observado).
No momento, o que faço é criar um histograma ou grade 2D (é assim que eu o chamo, talvez tenha um nome mais apropriado) para cada diagrama, dividindo os dois eixos (100 posições para cada). Depois, percorro cada célula da grade e encontro a diferença absoluta nas contagens entre A e B para essa célula em particular. Depois de ter passado por todas as células, que soma os valores para cada uma das células e portanto, acabar com um único parâmetro positivo representando a qualidade de ajuste ( ) entre A e B . Quanto mais próximo de zero, melhor o ajuste. Basicamente, é assim que esse parâmetro se parece:
; onde um i j é o número de estrelas em diagrama deumpara que cula particular (determinado por i j ) e b i j é o número deB.
É assim que essas diferenças nas contagens de cada célula se parecem na grade que eu criei (observe que não estou usando valores absolutos de ( a i j - b i j ) nesta imagem, mas Eu os uso ao calcular o parâmetro g f ):
O problema é que fui avisado de que esse pode não ser um bom estimador, principalmente porque, além de dizer que esse ajuste é melhor que o outro, porque o parâmetro é mais baixo , não posso dizer mais nada.
Importante :
(obrigado @ PeterEllis por trazer isso à tona)
1- Pontos de B não estão relacionados um-para-um com pontos em um . É importante ter isso em mente ao procurar o melhor ajuste: o número de pontos em A e B não é necessariamente o mesmo e o teste de qualidade do ajuste também deve explicar essa discrepância e tentar minimizá-la.
2- O número de pontos em cada conjunto de dados B (saída do modelo) que tento ajustar em A não é fixo.
Eu já vi o teste do qui-quadrado usado em alguns casos:
Além disso, li algumas pessoas que recomendam que um teste de Poisson com probabilidade de log seja aplicado em casos como este em que histogramas estão envolvidos. Se isso estiver correto, eu realmente apreciaria se alguém pudesse me instruir sobre como usar esse teste para este caso em particular (lembre-se, meu conhecimento de estatística é muito ruim, portanto, mantenha-o o mais simples possível :)