Aqui está uma descrição geral de como os três métodos mencionados funcionam.
O método Qui-quadrado funciona comparando o número de observações em uma posição com o número esperado para estar na posição com base na distribuição. Para distribuições discretas, as caixas são geralmente as possibilidades ou combinações discretas delas. Para distribuições contínuas, você pode escolher pontos de corte para criar os compartimentos. Muitas funções que implementam isso criarão automaticamente os compartimentos, mas você poderá criar seus próprios compartimentos se quiser comparar em áreas específicas. A desvantagem desse método é que as diferenças entre a distribuição teórica e os dados empíricos que ainda colocam os valores no mesmo compartimento não serão detectadas, um exemplo seria o arredondamento, se teoricamente os números entre 2 e 3 fossem espalhados pelo intervalo (esperamos ver valores como 2,34296),
A estatística do teste KS é a distância máxima entre as 2 Funções de Distribuição Cumulativa que estão sendo comparadas (geralmente uma teórica e uma empírica). Se as 2 distribuições de probabilidade tiverem apenas 1 ponto de interseção, então 1 menos a distância máxima é a área de sobreposição entre as 2 distribuições de probabilidade (isso ajuda algumas pessoas a visualizar o que está sendo medido). Pense em plotar no mesmo gráfico a função de distribuição teórica e o FED, em seguida, meça a distância entre as 2 "curvas", a maior diferença é a estatística do teste e é comparada com a distribuição de valores para isso quando o valor nulo for verdadeiro. Isso captura as diferenças de forma da distribuição ou uma distribuição deslocada ou esticada em comparação com a outra.1n . Esse teste depende de você conhecer os parâmetros da distribuição de referência em vez de estimar a partir dos dados (sua situação parece boa aqui). Se você estimar os parâmetros a partir dos mesmos dados, ainda poderá obter um teste válido comparando com suas próprias simulações, em vez da distribuição de referência padrão.
O teste de Anderson-Darling também usa a diferença entre as curvas CDF, como o teste KS, mas, em vez de usar a diferença máxima, ele usa uma função da área total entre as 2 curvas (na verdade, compara as diferenças, pesa-as para que as caudas tenham mais influência, depois se integra no domínio das distribuições). Isso dá mais peso aos valores discrepantes que o KS e também dá mais peso se houver várias pequenas diferenças (em comparação com uma grande diferença que o KS enfatizaria). Isso pode acabar dominando o teste para encontrar diferenças que você consideraria sem importância (arredondamento suave etc.). Como o teste KS, isso pressupõe que você não estimou parâmetros a partir dos dados.
Aqui está um gráfico para mostrar as idéias gerais dos últimos 2:
com base neste código R:
set.seed(1)
tmp <- rnorm(25)
edf <- approxfun( sort(tmp), (0:24)/25, method='constant',
yleft=0, yright=1, f=1 )
par(mfrow=c(3,1), mar=c(4,4,0,0)+.1)
curve( edf, from=-3, to=3, n=1000, col='green' )
curve( pnorm, from=-3, to=3, col='blue', add=TRUE)
tmp.x <- seq(-3, 3, length=1000)
ediff <- function(x) pnorm(x) - edf(x)
m.x <- tmp.x[ which.max( abs( ediff(tmp.x) ) ) ]
ediff( m.x ) # KS stat
segments( m.x, edf(m.x), m.x, pnorm(m.x), col='red' ) # KS stat
curve( ediff, from=-3, to=3, n=1000 )
abline(h=0, col='lightgrey')
ediff2 <- function(x) (pnorm(x) - edf(x))^2/( pnorm(x)*(1-pnorm(x)) )*dnorm(x)
curve( ediff2, from=-3, to=3, n=1000 )
abline(h=0)
O gráfico superior mostra um EDF de uma amostra a partir de uma normal padrão em comparação com o CDF da normal padrão com uma linha mostrando a estatística KS. O gráfico do meio mostra a diferença nas 2 curvas (você pode ver onde a estatística KS ocorre). A parte inferior é então a diferença quadrada e ponderada; o teste AD é baseado na área sob essa curva (supondo que eu tenha acertado tudo).
Outros testes observam a correlação em um qqplot, olham a inclinação no qqplot, comparam a média, var e outras estatísticas com base nos momentos.