Qualidade do ajuste para dados discretos: melhor abordagem

Os dados: Para os fins desta pergunta / comunicação, podemos assumir que os dados se parecem com rnbinom(1000,size=0.1,prob=0.01)R, o que gera uma amostra aleatória de 1.000 observações a partir de uma distribuição binomial negativa (com size=0.1e probabilidade de sucesso prob=0.01). Essa é a parametrização em que a variável aleatória representa o número de falhas antes do sizenúmero de sucessos. A cauda é longa e 1.000 observações não são muitos dados.

O problema: recebi alguns dados (número inteiro em {1,2, ....}) [veja acima] (1.500 pontos de dados) e pedi para encontrar a distribuição "melhor ajuste" e estimativas de quaisquer parâmetros. Não sei mais nada sobre os dados. Estou ciente de que esta não é uma amostra muito grande para dados com cauda longa. Mais dados é uma possibilidade.

O que fiz: considerei usar um teste de razão de verossimilhança ajustando duas distribuições diferentes aos dados, mas acho que isso não se aplica (por exemplo, não consigo determinar valores p críticos críticos), a menos que as duas distribuições sejam aninhadas ...

Eu então considerei usar um teste de Kolmogorov-Smirnov (ajustado para dados discretos), mas, de qualquer maneira, em R, ele reclamou que não podia calcular um valor-p para "dados com vínculos".

Qual é a melhor maneira de testar / determinar o ajuste de diferentes distribuições nesse contexto? Aqui estão algumas outras coisas que eu considerei:

Peça (muito) mais dados. Mas isso vai ajudar? Serei capaz de usar resultados assintóticos, por exemplo?
Considere algum esquema de bootstrap / re-sampling / monte-carlo? Em caso afirmativo, existe uma referência padrão que eu possa / deva ler para aprender como fazer isso corretamente? obrigado

hypothesis-testing goodness-of-fit

— Rusan Kax
fonte

Se entendi sua pergunta corretamente, você só precisa ajustar os dados à distribuição . Nesse caso, você pode usar uma das funções nos pacotes R, como fitdistrfrom MASSpackage, que usa estimativa máxima de verossimilhança (MLE) e suporta distribuições discretas , incluindo binomial e Poisson .

Então, como uma segunda etapa, você precisaria executar um (ou mais ) testes de qualidade de ajuste (GoF) para validar resultados . Os testes de Kolmogorov-Smirnov , Anderson-Darling e (AFAIK) Lilliefors não são aplicáveis a distribuições discretas. No entanto, felizmente, o teste Qui-quadrado de GoF é aplicável a distribuições contínuas e discretas e em R é uma questão de chamar a stats::chisq.test()função.

Como alternativa , como seus dados representam uma distribuição discreta, você pode usar o vcdpacote e sua função goodfit(). Essa função pode ser usada como substituta do teste GoF padrão chisq.test()ou, melhor ainda, como um fluxo de trabalho completo ( ajuste de distribuição e teste GoF ). Para a opção de fluxo de trabalho completo , basta usar a configuração padrão e não especificar parâmetros par(você pode especificar size, se type = "nbinomial"). Os parâmetros serão estimados usando probabilidade máxima ou qui-quadrado mínimo (você pode selecionar o método). Os resultados podem ser obtidos chamando a summary()função.

— Aleksandr Blekh
fonte

Os testes KS discretos existem de fato: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf

— Astrid

@Astrid Nice! Obrigado pela sua atualização e Feliz Ano Novo!

— Aleksandr Blekh

Quatro anos é melhor tarde do que nunca: D Feliz ano novo para você também!

— Astrid

@ Astrid "... antes tarde do que nunca" - não posso discutir com isso. :-) Obrigado!

— Aleksandr Blekh