Segui dados simulados de 2500 pessoas sobre a incidência de uma doença rara ao longo de 20 anos
year number_affected
1 0
2 0
3 1
4 0
5 0
6 0
7 1
8 0
9 1
10 0
11 1
12 0
13 0
14 1
15 1
16 0
17 1
18 0
19 2
20 1
Que teste posso aplicar para mostrar que a doença está se tornando mais comum?
Edit: como sugerido por @Wrzlprmft Tentei correlação simples usando Spearman e também os métodos Kendall:
Spearman's rank correlation rho
data: year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.3989206
Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
Cannot compute exact p-value with ties
>
Kendall's rank correlation tau
data: year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.3296319
Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
Cannot compute exact p-value with ties
Estes são suficientemente bons para este tipo de dados? O teste de Mann Kendall usando o método mostrado por @AWebb fornece um valor de P de [1] 0,04319868. A regressão de Poisson sugerida por @dsaxton fornece o seguinte resultado:
Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3187 -0.8524 -0.6173 0.5248 1.2158
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.79664 0.85725 -2.096 0.0361 *
year 0.09204 0.05946 1.548 0.1217
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 16.636 on 19 degrees of freedom
Residual deviance: 14.038 on 18 degrees of freedom
AIC: 36.652
Number of Fisher Scoring iterations: 5
O componente do ano aqui não é significativo. O que posso finalmente concluir? Além disso, em todas essas análises, o número 2500 (número da população do denominador) não foi utilizado. Esse número não faz diferença? Podemos usar regressão linear simples (gaussiana) usando incidência (número_afetado / 2500) versus ano?
drop1(fit, test="LRT")
um teste de razão de verossimilhança, em vez de fazer um teste z assintótico na estatística de Poisson. (Fazer isso fornece um valor- p de 0,107, portanto ainda não é estatisticamente significativo.) Você não precisa incluir o número da população na regressão, se for o mesmo para cada ano. Depois, apenas desempenha o papel de um fator de escala. Mas você deve incluí-lo (com valores da população por ano), enquanto a população em risco, provavelmente não variam ao longo dos vinte anos. Basta adicionar offset=log(pop_at_risk)
à glm
chamada.