Curso intensivo em estimativa média robusta

Eu tenho um monte (cerca de 1000) de estimativas e todas elas devem ser estimativas da elasticidade a longo prazo. Um pouco mais da metade é estimado usando o método A e o restante usando o método B. Em algum lugar, li algo como "Acho que o método B estima algo muito diferente do método A, porque as estimativas são muito (50-60%) mais altas " Meu conhecimento de estatística robusta é quase nulo, então eu apenas calculei as médias e medianas das duas amostras ... e vi imediatamente a diferença. O método A é muito concentrado, a diferença entre mediana e média é muito pequena, mas a amostra do método B variou bastante.

Concluí que os valores extremos e erros de medição distorcem a amostra do método B, então joguei fora cerca de 50 valores (cerca de 15%) que eram muito inconsistentes com a teoria ... e de repente os meios de ambas as amostras (incluindo o IC) eram muito semelhantes . A densidade também é plotada.

(Na busca de eliminar valores discrepantes, observei o intervalo da amostra A e removi todos os pontos de amostra em B que estavam fora dele.) Gostaria que você me dissesse onde eu poderia descobrir alguns princípios básicos de estimativa robusta de meios que permita-me julgar esta situação com mais rigor. E para ter algumas referências. Não preciso de um entendimento muito profundo de várias técnicas, mas de uma leitura abrangente da metodologia de estimativa robusta.

Eu testei t quanto à significância da diferença média após remover os valores discrepantes e o valor de p é 0,0559 (t em torno de 1,9). Mas esse não é realmente o ponto, os meios podem ser um pouco diferentes, mas eles não devem diferir de 50 a 60%, conforme declarado acima. E eu não acho que eles fazem.

— Ondrej
fonte

Qual é a sua análise pretendida usando esses dados? A prática de remover discrepantes é de credibilidade estatística duvidosa: você pode "criar dados" para dar significado ou falta de significado em qualquer nível ao fazer isso. As populações A e B que receberam medições usando os métodos A e B são verdadeiramente homogêneas ou é possível que seus métodos tenham fornecido populações diferentes?

— 31412 AdamO

Não haverá mais cálculos ou análises a serem feitos com os dados. Ambos os métodos mencionados são consistentes, de acordo com pesquisas recentes, portanto as populações devem ser homogêneas; mas os dados não são de ótima qualidade e é claro que alguns dos valores em B existem por engano (o método é propenso a erros), eles não fazem absolutamente nenhum sentido econômico. Eu sei que a remoção é duvidosa, é por isso que estou procurando algo mais rigoroso e credível.

— Ondrej

Respostas:

Você está procurando a teoria ou algo prático?

Se você está procurando livros, aqui estão alguns que eu achei úteis:

FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Estatísticas Robustas: A Abordagem Baseada em Funções de Fluência , John Wiley & Sons, 1986.
PJ Huber, Estatísticas robustas , John Wiley & Sons, 1981.
PJ Rousseeuw, AM Leroy, Regressão Robusta e Detecção de Outlier , John Wiley & Sons, 1987.
RG Staudte, SJ Sheather, Estimativas e testes robustos , John Wiley & Sons, 1990.

Se você está procurando métodos práticos, aqui estão alguns métodos robustos para estimar a média ("estimadores de localização", acho que é o termo mais baseado em princípios):

A mediana é simples, conhecida e bastante poderosa. Possui excelente robustez para outliers. O "preço" da robustez é de cerca de 25%.
A média de 5% de acabamento é outro método possível. Aqui você joga fora os valores 5% mais altos e 5% mais baixos e depois pega a média (média) do resultado. Isso é menos robusto para discrepantes: contanto que não mais que 5% dos seus pontos de dados estejam corrompidos, isso é bom, mas se mais de 5% estiver corrompido, ele se torna repentinamente horrível (não se degrada normalmente). O "preço" da robustez é menor que a mediana, embora eu não saiba exatamente o que é.
$\{(x_i+x_j)/2 : 1 \le i \le j \le n\}$ $n(n+1)/2$ $x_1,\dots,x_n$ são as observações. Isso tem uma robustez muito boa: ele pode lidar com a corrupção de até 29% dos pontos de dados sem desmoronar totalmente. E o "preço" da robustez é baixo: cerca de 5%. É uma alternativa plausível à mediana.
A média interquartil é outro estimador que às vezes é usado. Ele calcula a média do primeiro e terceiro quartis e, portanto, é simples de calcular. Possui uma robustez muito boa: pode tolerar corrupção de até 25% dos pontos de dados. No entanto, o "preço" da robustez não é trivial: cerca de 25%. Como resultado, isso parece inferior à mediana.
Existem muitas outras medidas que foram propostas, mas as acima parecem razoáveis.

Em resumo, eu sugeriria a mediana ou, possivelmente, o estimador de Hodges-Lehmann.

PS Oh, eu deveria explicar o que quero dizer com o "preço" da robustez. Um estimador robusto foi projetado para ainda funcionar decentemente bem, mesmo que alguns de seus pontos de dados tenham sido corrompidos ou sejam de alguma forma estranhos. Mas e se você usar um estimador robusto em um conjunto de dados que não possui valores discrepantes nem corrupção? Idealmente, gostaríamos que o estimador robusto fosse o mais eficiente possível ao usar os dados. Aqui podemos medir a eficiência pelo erro padrão (intuitivamente, a quantidade típica de erro na estimativa produzida pelo estimador). Sabe-se que se suas observações vierem de uma distribuição gaussiana (iid) e se você souber que não precisará de robustez, a média é ótima: ele tem o menor erro de estimativa possível. O "preço" da robustez, acima, é quanto o erro padrão aumenta se aplicarmos um estimador robusto específico a essa situação. Um preço de robustez de 25% para a mediana significa que o tamanho do erro de estimativa típico com a mediana será cerca de 25% maior que o tamanho do erro de estimativa típico com a média. Obviamente, quanto menor o "preço", melhor.

— DW
fonte

n (n + 1) / 2

$n(n+1)/2$

(x_{i} + x_{j}) / 2

$(x_{i} + x_{j}) / 2$

1 \leq i \leq j \leq n

$1 \leq i \leq j \leq n$ wilcox.test(..., conf.int=TRUE)

+1, isso é realmente excelente. Eu tenho um nitpick, no entanto: eu não usaria a frase "termo de erro" em seu último parágrafo, pois costuma ser usada para significar outra coisa; Eu usaria 'erro padrão da distribuição de amostragem' ou apenas 'erro padrão'.

— gung - Restabelece Monica

Uma resposta muito bem estruturada e concisa, obrigado! Uma visão geral é o que eu precisava, vou ler o artigo sugerido por Henrik e deve ser abordado. Para um entretenimento noturno prolongado no verão, não deixarei de conferir os livros sugeridos por você e pelo jbowman.

— precisa

@caracal, você está correto. Minha caracterização do estimador HL estava incorreta. Obrigado pela correção. Atualizei minha resposta de acordo.

— DW

Obrigado, @gung! Editei a resposta para usar 'erro padrão', como você sugere.

— DW

Se você gosta de algo curto e fácil de digerir, dê uma olhada no seguinte artigo da literatura psicológica:

Erceg-Hurn, DM, & Mirosevich, VM (2008). Métodos estatísticos robustos e modernos: uma maneira fácil de maximizar a precisão e o poder de sua pesquisa. American Psychologist , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591

Eles se baseiam principalmente nos livros de Rand R Wilcox (que reconhecidamente também não são muito matemáticos):

Wilcox, RR (2001). Fundamentos dos métodos estatísticos modernos: melhorando substancialmente a potência e a precisão. Nova york; Berlim: Springer.
Wilcox, RR (2003). Aplicação de técnicas estatísticas contemporâneas. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Introdução a estimativas robustas e testes de hipóteses. Academic Press.

— Henrik
fonte

Um livro que combina teoria com prática muito bem é Métodos Estatísticos Robustos com R, de Jurečková e Picek. Também gosto de Estatísticas Robustas , de Maronna et al. No entanto, ambos podem ter mais matemática do que você gostaria. Para um tutorial mais aplicado focado em R, este pdf do BelVenTutorial pode ajudar.

— jbowman
fonte

Ah, prof. Jurečková - um professor da nossa universidade, quais são as chances? Vou verificar os dois livros. Embora eu estivesse procurando por um documento mais ... breve (já que esse problema é muito marginal para mim), não é necessário me aprofundar um pouco mais. Obrigado!

— Ondrej

É um mundo pequeno! Bem, pelo menos eu corrigi a ortografia, copiando a partir de seu comentário ...

— jbowman