@cardinal telegrafou uma resposta nos comentários. Vamos realizá-lo. Seu argumento é que, embora os modelos lineares gerais (como implementados por lm
e, nesse caso glmRob
) pareçam ter a intenção de avaliar as relações entre variáveis, eles também podem ser ferramentas poderosas para estudar uma única variável. O truque baseia-se no fato de que a regressão de dados contra uma constante é apenas outra maneira de estimar seu valor médio ("localização") .
Como exemplo, gere alguns dados distribuídos por Poisson:
set.seed(17)
x <- rpois(10, lambda=2)
Nesse caso, R
produzirá o vetor dos valores a partir de uma distribuição de Poisson da média . Estime sua localização com :(1,5,2,3,2,2,1,1,3,1)x
2glmRob
library(robust)
glmrob(x ~ 1, family=poisson())
A resposta nos diz que a interceptação é estimada em . Obviamente, qualquer pessoa que use um método estatístico precisa saber como ele funciona: quando você usa modelos lineares generalizados com a família Poisson, a função "link" padrão é o logaritmo. Isso significa que a interceptação é o logaritmo da localização estimada. Então calculamos0.7268
exp(0.7268)
O resultado, , está confortavelmente próximo de : o procedimento parece funcionar. Para ver o que está fazendo, plote os dados:2.06852
plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")
A linha ajustada é puramente horizontal e, portanto, estima o meio dos valores verticais: nossos dados. É tudo o que está acontecendo.
Para verificar a robustez, vamos criar um erro discrepante inserindo alguns zeros no primeiro valor de x
:
x[1] <- 100
Desta vez, para maior flexibilidade no pós-processamento, salvaremos a saída de glmRob
:
m <- glmrob(x ~ 1, family=poisson())
Para obter a média estimada, podemos solicitar
exp(m$coefficients)
O valor desta vez é igual a : um pouco fora, mas não muito longe, dado que o valor médio de (obtido como ) é . É nesse sentido que esse procedimento é "robusto". Mais informações podem ser obtidas via2.496x
mean(x)
12
summary(m)
Sua saída nos mostra, entre outras coisas, que o peso associado ao valor periférico de pol é apenas , quase , identificando o suspeito extremos.100x[1]
0.021790