Distância de Cook na detecção de outliers

Segundo meu entendimento, a distância de Cook mede a influência de cada observação excluindo pontos ao ajustar um modelo. Então, eu suponho que poderia ser uma abordagem razoável para detecção de outlier?

Minhas perguntas, suponha que os dados sejam categorizados em grupos, é possível usar a distância de Cook para detectar o grupo "outlier" em vez do ponto outlier? A distância de Cook é uma boa opção para medir a influência do grupo.

— Roy C
fonte

Você pode fazer uma variável de fator para o agrupamento e depois fazer plotagens?

— jchaykow

Obrigado, notei que há uma opção de grupo influence(). Eu tenho outra pergunta sobre o limite. Como o 4 / N usual é "muito sensível", detecta valores extremos, enquanto eu me importo apenas com pontos / grupos influentes extremos. @jchaykow

— Roy C

Para conjuntos de dados menores de corte D de Cook pode ser 1.

— jchaykow

@jchaykow Funciona bem em alguns dos meus conjuntos de dados, mas não em conjuntos de dados muito pequenos. Mais tarde tentarei nos outros. É algum tipo de regra de ouro e como devo interpretar esse ponto de corte? Obrigado.

— Roy C

Respostas:

Como você disse, a Distância de Cook mede a mudança na regressão removendo cada ponto individual. Se as coisas mudam um pouco pela omissão de um único ponto, esse ponto está tendo muita influência em seu modelo. Definir $\hat{Y}_{j(i)}$ ser o valor ajustado para a j-ésima observação quando a i-ésima observação for excluída do conjunto de dados. Distância de Cook mede quanto $i$ altera todas as previsões.

D_{Eu} = \frac{\sum_{j = 1 1}^{n} {\hat{Y}}_{j} - {\hat{Y}}_{j (Eu)})^{2}}{p M S E}

$D_i = \frac{\sum_{j=1}^{n}\hat{Y}_j - \hat{Y}_{j(i)})^2}{pMSE}$

= \frac{e_{Eu}^{2}}{p M S E} [\frac{h_{Eu Eu}}{(1 1 - h_{Eu Eu})^{2}}]

$= \frac{e_i^2}{pMSE}[\frac{h_{ii}}{(1-h_{ii})^2}]$

E se $D_i \geq 1$ é extremo (para conjuntos de dados pequenos e médios).

A Distância de Cook mostra o efeito do i-ésimo caso em todos os valores ajustados. Observe que o i-ésimo caso pode ser influenciado por

grande $e_i$ e moderado $h_{ii}$
moderado $e_i$ e grande $h_{ii}$
grande $e_i$ e grande $h_{ii}$

Em R, use o influence.measurespacote comcooks.distance(model)

— jchaykow
fonte

Obrigado por esclarecer a definição. Mas minha pergunta é mais sobre se o

— Roy C

@DaisyLee seu comentário foi cortado

— jchaykow

Lol, só notei que é você. Obrigado por esclarecer a definição. Quero perguntar se a idéia de estender o uso da distância de Cook para detectar o grupo externo em vez de alguns pontos é errônea ou razoável? E como você pensa em usar boxplot / IQR para cortar distâncias extremamente influentes de cozinheiros?

— Roy C

O uso da distância de Cook não funcionará com base na natureza do método (isto é, remover cada ponto individualmente). Se você simplesmente deseja verificar se há uma variação externa de uma variável com base em seus grupos com sd ou um método semelhante ao descrito acima, isso não é problema ... df1 = df%>% group_by (agrupamento)%>% filter (! ( abs (valor - mediana (pred1))> 2 * SD (pred1)))%>% summarise_each (funs (médios), pred1)

— jchaykow

@DaisyLee além disso, infelizmente, estou sem ideias. Talvez alguém possa ajudar mais.

— jchaykow

O D de Cook é ineficaz na detecção de agrupamentos de valores discrepantes porque a remoção de um deles não afetará muito o modelo (ainda existem outros discrepantes).

Você pode usar o residual como uma medida, sensível a clusters. Uma simples implementação de k-means também é eficaz.

— Olá Mundo
fonte