Na notação que utilizarei, será o número de variáveis de design (incluindo o termo constante), n o número de observações com n ≥ 2 p + 1 (se essa última condição não for atendida, o pacote não teria retornado um valor ajuste, mas um erro, então suponho que ele seja atendido). por o vetor de coeficientes estimado por FLTS ( ) e os coeficientes estimados por MM ( ). Também vou escrever:pnn≥2p+1 β HHβ^FLTSltsReg
β^MMlmrob
r2i(β^)=(yi−x⊤iβ^)2
(esses são os resíduos quadráticos, não os padronizados!)
A rlm
função se encaixa em uma estimativa 'M' de regressão e, como a proposta de @Frank Harrell feita nos comentários de sua pergunta, não é robusta para discrepâncias no espaço de design. A regressão ordinal tem um ponto de ruptura (a proporção de seus dados que precisa ser substituída por valores discrepantes para extrair os coeficientes ajustados para valores arbitrários) de essencialmente o que significa que um único discrepante (independentemente de !) É suficiente para tornar o ajuste sem sentido . Para estimativas de regressão M (por exemplo, regressão Huber M), o ponto de ruptura é essencialmente . Isso é um pouco mais alto, mas na prática ainda é desconfortavelmente próximo de 0 (porque muitas vezes será grande). A única conclusão que pode ser extraída den 1 / ( p + 1 ) p p + 11/nn1/(p+1)prlm
encontrar um ajuste diferente dos outros dois métodos é que ele foi influenciado por outliers de design e que deve haver mais de deles em seu conjunto de dados.p+1
Por outro lado, os outros dois algoritmos são muito mais robustos: seu ponto de ruptura está abaixo de e, o que é mais importante, não diminui à medida que aumenta. Ao ajustar um modelo linear usando um método robusto, você assume que pelo menos observações em seus dados não são contaminadas. A tarefa desses dois algoritmos é encontrar essas observações e ajustá-las o melhor possível. Mais precisamente, se denotarmos:P h = ⌊ ( n + p + 1 ) / 2 ⌋ + 11/2ph=⌊(n+p+1)/2⌋+1
HFLTSHMM={i:r2i(β^FLTS)≤qh/n(r2i(β^FLTS))}={i:r2i(β^MM)≤qh/n(r2i(β^MM))}
(onde é o quantil do vetor )qh/n(r2i(β^MM))h/nr2i(β^MM)
então ( ) tenta ajustar as observações com os índices em ( ).β^MMβ^FLTSHMMHFLTS
O fato de haver grandes diferenças entre e indica que os dois algoritmos não identificam o mesmo conjunto de observações que os outliers. Isso significa que pelo menos um deles é influenciado pelos outliers. Nesse caso, usar o (ajustado) ou qualquer uma das estatísticas de um dos dois ajustes para decidir qual usar, embora intuitivo, é uma péssima idéia: ajustes contaminados geralmente têm resíduos menores do que os limpos (mas desde que o conhecimento de por esse motivo, em primeiro lugar, usamos estatísticas robustas, presumo que o OP esteja ciente desse fato e que não precise me aprofundar nisso.β^FLTSβ^MMR2
Os dois ajustes robustos dão resultados conflitantes e a pergunta é qual é a correta? Uma maneira de resolver isso é considerar o conjunto:
H+=HMM∩HFLTS
porque , . Além disso, se ou estão livres de , o mesmo ocorre com . A solução que proponho explora esse fato. Calcular:h≥[n/2]#{H+}≥pHMMHFLTSH+
D(H+,β^FLTS,β^MM)=∑i∈H+(r2i(β^FLTS)−r2i(β^MM))
Por exemplo, se , então,
se encaixa melhor nas boas observações que e, portanto, confio em mais. E vice versa.β F L T S β H H β F L T SD(H+,β^FLTS,β^MM)<0β^FLTSβ^MMβ^FLTS