Eu responderei suas perguntas na ordem oposta em que você as perguntou, de modo que a exposição prossiga do específico para o geral.
Primeiro, vamos considerar uma situação em que você pode supor que, exceto por uma minoria de outliers, a maior parte dos seus dados pode ser bem descrita por uma distribuição conhecida (no seu caso, a exponencial).
x
pX( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
xθ = 0
O estimador usual de MLE dos parâmetros é [0, p 506]:
θ^= minEuxEu
e
σ^= aveEuxEu- minEuxEu
Aqui está um exemplo em R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈ 2,08
xEu- xEu :
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈ 11.12xEu100 xEu
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈ 54
Uma alternativa ao MLE bruto é: (a) encontrar os outliers usando uma regra robusta de identificação de outlier , (b) separá-los como dados espúrios e (c) calcular o MLE na parte não espúria da amostra.
A mais conhecida dessas regras robustas de identificação externa é a regra med / mad proposta por Hampel [3], que a atribuiu a Gauss (ilustrei essa regra aqui ). Na regra med / mad, o limite de rejeição é baseado na suposição de que as observações genuínas em sua amostra são bem aproximadas por uma distribuição normal.
Obviamente, se você tiver informações extras (como saber que a distribuição das observações genuínas é bem aproximada por uma distribuição de poisson, como neste exemplo ), não há nada para impedir a transformação de seus dados e o uso da regra de rejeição de linha de base discrepante (a med / mad) mas isso me parece um pouco estranho ao transformar os dados para preservar o que é afinal uma regra ad-hoc.
Parece-me muito mais lógico preservar os dados, mas adaptar as regras de rejeição. Então, você ainda usaria o procedimento de três etapas que descrevi no primeiro link acima, mas com o limite de rejeição adaptado à distribuição, você suspeita que boa parte dos dados tenha. Abaixo, dou a regra da rejeição em situações em que as observações genuínas são bem ajustadas por uma distribuição exponencial. Nesse caso, você pode construir bons limites de rejeição usando a seguinte regra:
θ
θ^′= medEuxEu- 3,476 Qn ( x ) ln2
≈ 3.476
2) rejeitar como espúrias todas as observações fora de [2, p 188]
[ θ^′, 9 ( 1 + 2 / n ) medEuxEu+ θ^′]
(o fator 9 na regra acima é obtido como o 7.1 na resposta de Glen_b acima, mas usando um ponto de corte mais alto. O fator (1 + 2 / n) é um pequeno fator de correção de amostra que foi derivado por simulações em [2]. Para tamanhos de amostra grandes o suficiente, é essencialmente igual a 1).
σ
σ^′= aveeu ∈ HxEu- mineu ∈ HxEu
H= { i : θ^′≤ xEu≤ 9 ( 1 + 2 / n ) medEuxEu+ θ^′}
Usando esta regra nos exemplos anteriores, você obteria:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈ 2,05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈ 2,2
No terceiro exemplo:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈ 2,2
{ i : i ∉ H}
Agora, para o caso geral em que você não possui uma boa distribuição de candidatos para se ajustar à maior parte de suas observações, além de saber que uma distribuição simétrica não funciona, você pode usar o boxplot ajustado [4]. Essa é uma generalização do boxplot que leva em consideração uma medida (assimétrica e não-paramétrica e robusta) de seus dados (de modo que, quando a maior parte dos dados é simétrica, cai no boxplot usual). Você também pode verificar esta resposta para obter uma ilustração.
- [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Distribuições Univariadas Contínuas, Volume 1, 2ª Edição.
- [1] Rousseeuw PJ e Croux C. (1993). Alternativas ao desvio absoluto médio. Jornal da Associação Estatística Americana, vol. 88, No. 424, pp. 1273-1283.
- [2] JK Patel, CH Kapadia e DB Owen, Dekker (1976). Manual de distribuições estatísticas.
- [3] Hampel (1974). A curva de influência e seu papel na estimativa robusta. Jornal da Associação Estatística Americana vol. 69, n ° 346 (junho de 1974), pp. 383-393.
- [4] Vandervieren, E., Hubert, M. (2004) "Um boxplot ajustado para distribuições distorcidas". Estatística computacional e análise de dados Volume 52, Edição 12, 15 de agosto de 2008, páginas 5186-5201.
1.5*IQR
definição de um outlier não é universalmente aceita. Tente descarregar sua pergunta e expandir o problema que você está tentando resolver.