Por que as estatísticas robustas (e resistentes) não substituíram as técnicas clássicas?


82

Ao resolver problemas de negócios usando dados, é comum que pelo menos uma suposição de que a subclasse de estatísticas clássicas seja inválida. Na maioria das vezes, ninguém se incomoda em verificar essas suposições para que você nunca saiba.

Por exemplo, que muitas das métricas comuns da Web são "de cauda longa" (em relação à distribuição normal), estão agora tão bem documentadas que nós tomamos isso como garantido. Outro exemplo, comunidades on-line - mesmo em comunidades com milhares de membros, está bem documentado que, de longe, a maior parcela de contribuição / participação em muitas dessas comunidades é atribuída a um minúsculo grupo de 'super-contribuidores'. (Por exemplo, alguns meses atrás, logo após a disponibilização da API do SO na versão beta, um membro do StackOverflow publicou uma breve análise dos dados que ele coletou por meio da API; sua conclusão - menos de um por cento dos membros do SO representam a maior parte dos a atividade no SO (presumivelmente, fazendo perguntas e respondendo a elas), outros 1-2% responderam pelo restante e a esmagadora maioria dos membros não faz nada).

Distribuições desse tipo - novamente mais frequentemente a regra do que a exceção - geralmente são melhor modeladas com uma função de densidade da lei de energia . Para esse tipo de distribuição, mesmo o teorema do limite central é problemático de aplicar.

Dada a abundância de populações como essa que interessa aos analistas e o fato de os modelos clássicos terem um desempenho comprovadamente fraco nesses dados, e os métodos robustos e resistentes já existem há algum tempo (pelo menos 20 anos, acredito) - por que eles não são usados ​​com mais frequência? (Eu também estou querendo saber porque eu não usá-los com mais freqüência, mas isso não é realmente uma pergunta para CrossValidated .)

Sim, eu sei que existem capítulos de livros didáticos dedicados inteiramente a estatísticas robustas e sei que existem (alguns) Pacotes R (a base robusta é a que eu estou familiarizado e uso), etc.

E, no entanto, dadas as vantagens óbvias dessas técnicas, elas geralmente são claramente as melhores ferramentas para o trabalho - por que não são usadas com muito mais frequência ? Não deveríamos esperar ver estatísticas robustas (e resistentes) usadas com muito mais frequência (talvez até presuntivamente) em comparação com os análogos clássicos?

A única explicação substantiva (ou seja, técnica) que ouvi é que técnicas robustas (da mesma forma para métodos resistentes) carecem do poder / sensibilidade das técnicas clássicas. Não sei se isso é verdade em alguns casos, mas sei que não é verdade em muitos casos.

Uma palavra final de preempção: sim, eu sei que esta pergunta não tem uma única resposta comprovadamente correta; muito poucas perguntas neste site fazem. Além disso, esta questão é uma investigação genuína; não é um pretexto para avançar um ponto de vista - não tenho um ponto de vista aqui, apenas uma pergunta pela qual espero obter algumas respostas perspicazes.


12
O Black Swann de Nassim Nicholas Taleb explica por que modelos simples foram usados ​​no mundo financeiro e os perigos a que isso levou. Uma falha específica é equiparar probabilidades muito baixas a zero e aplicar cegamente a distribuição normal no gerenciamento de riscos!
James

9
Testes baseados em muitas suposições são mais poderosos quando essas suposições são satisfeitas. Podemos testar a significância do desvio assumindo que as observações são gaussianas de IID, o que fornece média como estatística. Um conjunto menos restritivo de suposições nos diz para usar a mediana. Podemos ir além e assumir que as observações estão correlacionadas para obter ainda mais robustez. Mas cada passo reduz o poder do nosso teste e, se não fizermos nenhuma suposição, nosso teste é inútil. Testes robustos implicitamente fazer suposições sobre os dados e são melhores do que clássica somente quando esses pressupostos corresponde à realidade melhor
Yaroslav Bulatov

Respostas:


69

Os pesquisadores desejam valores p pequenos, e você pode obter valores p menores se usar métodos que fazem suposições distributivas mais fortes. Em outras palavras, métodos não robustos permitem publicar mais artigos. É claro que mais desses trabalhos podem ser falsos positivos, mas uma publicação é uma publicação. Essa é uma explicação cínica, mas às vezes é válida.


4
"às vezes" é um eufemismo ... a lógica autores muitas vezes não é este direto, mas o cenário de estímulo / recompensa é tal que as pessoas vão fazer isso como uma questão de condicionamento
John

2
Não, os pesquisadores estão sendo desonestos, mas agindo por ignorância. Eles não entendem o que significam as estatísticas ou as suposições necessárias, mas como você disse, eles entendem claramente o estímulo / recompensa: p> 0,05 => nenhuma publicação.
John D. Cook

10
Você também deve apresentar algo que aqueles "no poder" (tomadores de decisão, supervisores, revisores) entendam. Portanto, tem que estar na linguagem comum que evolui muito lentamente, pois essas pessoas tendem a ser mais velhas e mais resistentes à mudança, em grande parte porque isso pode invalidar suas carreiras até agora!
James

12
Bom ponto. "Eu entendo os valores p. Apenas me dê um valor p." Ironicamente, eles provavelmente não entendem os valores-p, mas isso é outra questão.
John D. Cook

2
Não acredito que isso seja categoricamente verdade. Pelo menos, ouvi dizer que os não paramétricos modernos costumam sacrificar muito pouco poder, se houver. AFAIK, a perda de energia é mais pronunciada em testes envolvendo transformações de classificação, que são quase onipresentes entre métodos robustos.
Nick Stauner

42

Portanto, 'modelos clássicos' (sejam eles quais forem - presumo que você queira dizer algo como modelos simples ensinados em livros didáticos e estimados por ML) falham em alguns, talvez muitos, conjuntos de dados do mundo real.

Se um modelo falhar, há duas abordagens básicas para corrigi-lo:

  1. Faça menos suposições (menos modelo)
  2. Faça mais suposições (mais modelo)

Estatísticas robustas, quase-probabilidade e abordagens GEE adotam a primeira abordagem, alterando a estratégia de estimativa para uma em que o modelo não se aplica a todos os pontos de dados (robusto) ou não precisa caracterizar todos os aspectos dos dados (QL e GEE).

A alternativa é tentar criar um modelo que modele explicitamente a fonte de pontos de dados contaminantes ou os aspectos do modelo original que parecem ser falsos, mantendo o método de estimativa o mesmo de antes.

Alguns preferem intuitivamente o primeiro (é particularmente popular em economia) e outros intuitivamente preferem o último (é particularmente popular entre os bayesianos, que tendem a ser mais felizes com modelos mais complexos, principalmente quando percebem que usarão ferramentas de simulação para de qualquer maneira).

Pressupostos distributivos de cauda gorda, por exemplo, usando o binômio negativo em vez de poisson ou t em vez de normal, pertencem à segunda estratégia. A maioria das coisas rotuladas como 'estatísticas robustas' pertence à primeira estratégia.

Por uma questão prática, derivar estimadores para a primeira estratégia para problemas realisticamente complexos parece ser bastante difícil. Não que isso seja motivo para não fazer isso, mas talvez seja uma explicação para o motivo de não ser feito com muita frequência.


4
+1. Muito boa explicação. Eu também acho que alguns métodos "robustos" são bastante ad hoc (meios truncados) e que "robusto" está vinculado a um aspecto particular de um método e não é uma qualidade geral, mas muitas pessoas interpretam "robusto" como "eu não precisa se preocupar com meus dados, pois meu método é robusto ".
Wayne

Ótima resposta. Incomoda-me que tantas respostas se concentrem na dificuldade de entender estatísticas robustas ou nos incentivos para ignorar a violação de suposições. Eles ignoram as pessoas que sabem que existem casos em que são necessárias estatísticas robustas e quando não são.
Kenji

29

Eu sugeriria que é um atraso no ensino. A maioria das pessoas aprende estatística na faculdade ou universidade. Se a estatística não é seu primeiro diploma e, em vez disso, fez um diploma em matemática ou ciências da computação, provavelmente você cobre apenas os módulos fundamentais de estatística:

  1. Probabilidade
  2. Testando hipóteses
  3. Regressão

Isso significa que, quando se depara com um problema, você tenta usar o que sabe para resolvê-lo.

  • Os dados não são normais - faça registros.
  • Os dados têm valores discrepantes irritantes - remova-os.

A menos que você encontre outra coisa, é difícil fazer algo melhor. É realmente difícil usar o Google para encontrar algo se você não sabe como é chamado!

Eu acho que com todas as técnicas levará um tempo até que as técnicas mais recentes sejam filtradas. Quanto tempo foram necessários os testes de hipótese padrão para fazer parte de um currículo estatístico padrão?

Aliás, com um diploma de estatística, ainda haverá um atraso no ensino - apenas um mais curto!


4
Mas isso levanta um problema pedagógico interessante, pelo menos em Psicologia, porque, até onde eu sei, a maioria dos livros de estatística introdutórios sendo usados ​​em meu campo não discutem realmente medidas robustas, exceto como um aparte.
russellpierce

3
Isso é muito verdadeiro, e também na psicologia, há uma confusão irritante entre não-paramétricos e não-normais, o que parece dificultar a compreensão.
precisa saber é o seguinte

2
Alguns de nós, psicólogos, estamos confusos sobre tudo o que é estatístico! :)
Nick Stauner

21

Qualquer pessoa treinada em análise de dados estatísticos em um nível razoável usa os conceitos de estatística robusta regularmente. A maioria dos pesquisadores sabe o suficiente para procurar erros graves e erros de gravação de dados; a política de remover pontos de dados suspeitos remonta ao século 19 com Lord Rayleigh, GG Stokes e outros da mesma idade. Se a pergunta for:

Por que os pesquisadores não usam os métodos mais modernos para calcular estimativas de localização, escala, regressão etc.?

então a resposta é dada acima - os métodos foram amplamente desenvolvidos nos últimos 25 anos, digamos 1985 - 2010. O atraso na aprendizagem de novos métodos leva em conta, além da inércia composta pelo "mito" de que não há nada errado com cegamente usando métodos clássicos. John Tukey comenta que apenas quais métodos robustos / resistentes você usa não são importantes - o importante é que você use alguns. É perfeitamente apropriado usar métodos clássicos e robustos / resistentes rotineiramente e só se preocupa quando diferem o suficiente para importar. Mas quando eles diferem , você deve pensar bastante .

Em vez disso, a pergunta é:

Por que os pesquisadores não param e fazem perguntas sobre seus dados, em vez de aplicar cegamente estimativas altamente instáveis?

então a resposta realmente se resume ao treinamento. Existem muitos pesquisadores que nunca foram treinados em estatística adequadamente, resumidos pela dependência geral dos valores de p como o princípio e o objetivo final de 'significância estatística'.

@Kwak: As estimativas de Huber da década de 1970 são robustas, no sentido clássico da palavra: resistem a valores extremos. E os estimadores redescendentes datam bem antes da década de 1980: o estudo de robustez de Princeton (1971) incluiu a estimativa bissquare da localização, uma estimativa redescendente.


2
projecteuclid.org/… Documento disponível gratuitamente, escrito por Peter Huber, sobre as contribuições de John Tukey para estatísticas robustas. Leitura razoavelmente fácil, luz sobre as fórmulas.
Wesley Burr

20

A estatística é uma ferramenta para pesquisadores não-estatísticos, e eles simplesmente não se importam.

Certa vez, tentei ajudar com um artigo sobre medicina que minha ex-esposa era coautora. Escrevi várias páginas descrevendo os dados, o que sugeria, por que certas observações foram excluídas do estudo ... e o pesquisador principal, um médico, jogou tudo fora e pediu a alguém para calcular um valor-p, que é tudo o que ela (e quase todo mundo que leria o artigo) se importava.


12

Dou uma resposta em duas direções:

  1. coisas robustas não são necessariamente rotuladas de robustas. Se você acredita que robustez contra tudo existe, você é ingênuo.
  2. As abordagens estatísticas que deixam o problema da robustez à parte não são, às vezes, adaptadas ao mundo real, mas geralmente são mais valiosas (como um conceito) do que um algoritmo que parece cozinha.

desenvolvimento

Primeiro, acho que existem muitas abordagens boas em estatística (você as encontrará em pacotes R não necessariamente com robusto mencionado em algum lugar) que são naturalmente robustas e testadas em dados reais e o fato de não encontrar algoritmo com "robust "mencionado em algum lugar não significa que não é robusto. De qualquer forma, se você acha que ser robusto significa ser universal, nunca encontrará nenhum procedimento robusto (sem almoço grátis), você precisa ter algum conhecimento / experiência nos dados que analisa para usar a ferramenta adaptada ou criar um modelo adaptado.

Por outro lado, algumas abordagens estatísticas não são robustas porque são dedicadas a um único tipo de modelo. Eu acho que é bom em algum momento trabalhar em um laboratório para tentar entender as coisas. Também é bom tratar o problema separadamente para entender qual é o problema da nossa solução ... é assim que o matemático funciona. O exemplo do modelo gaussiano elocante: é muito criticado porque a suposição gaussiana nunca é cumprida, mas traz 75% das idéias usadas praticamente na estatística hoje. Você realmente acha que tudo isso é sobre escrever artigos para seguir a regra de publicar ou perecer (que eu não gosto, concordo)?


11

Como alguém que aprendeu um pouco de estatística para minha própria pesquisa, acho que as razões são pedagógicas e inerciais.

Observei em meu próprio campo que a ordem na qual os tópicos são ensinados reflete a história do campo. As idéias que vieram primeiro são ensinadas primeiro e assim por diante. Para as pessoas que apenas mergulham nas estatísticas para obter instruções superficiais, isso significa que elas aprenderão as estatísticas clássicas primeiro e provavelmente por último. Então, mesmo que eles aprendam mais, as coisas clássicas ficam melhor com elas devido aos efeitos de primazia.

Além disso, todos sabem o que é um teste t de duas amostras. Menos do que todo mundo sabe o que é um teste de Mann-Whitney ou Wilcoxon Rank Sum. Isso significa que eu tenho que exercer um pouco de energia para explicar qual é o meu teste robusto, em vez de não ter que fazer nenhum com um teste clássico. Tais condições obviamente resultarão em menos pessoas usando métodos robustos do que deveriam.


9

Wooldridge "Econometria Introdutória - Uma Abordagem Moderna" 2E p.261.

Se erros padrão robustos com heterocedasticidade são válidos com mais frequência do que os erros padrão OLS usuais, por que nos incomodamos com os erros padrão usuais? e os erros são normalmente distribuídos, as estatísticas t usuais têm distribuições t exatas, independentemente do tamanho da amostra. Os erros padrão robustos e as estatísticas t robustas são justificados apenas quando o tamanho da amostra se torna grande. Com tamanhos de amostra pequenos, as estatísticas t robustas podem ter distribuições que não estão muito próximas da distribuição t e que podem prejudicar nossa inferência. Em amostras de grandes tamanhos, podemos sempre relatar apenas os erros padrão robustos à heterocedasticidade em aplicações transversais,



7

Embora eles não sejam mutuamente exclusivos, acho que a crescente popularidade das estatísticas bayesianas faz parte disso. As estatísticas bayesianas podem atingir muitos dos mesmos objetivos por meio de médias anteriores e de modelos e tendem a ser um pouco mais robustas na prática.


6

Não sou estatístico, minha experiência em estatística é bastante limitada, apenas uso estatísticas robustas em visão computacional / reconstrução 3d / estimativa de pose. Aqui está minha opinião sobre o problema do ponto de vista do usuário:

Primeiro, estatísticas robustas usavam muito em engenharia e ciência sem chamá-la de "estatística robusta". Muitas pessoas o usam intuitivamente, chegando a ele no processo de ajustar um método específico ao problema do mundo real. Por exemplo, mínimos quadrados ponderados iterativos e médias aparadas / mínimos quadrados aparados usados ​​normalmente, que apenas o usuário não sabe que usaram estatísticas robustas - eles apenas tornam o método viável para dados reais e não sintéticos.

Segundo, estatísticas robustas "intuitivas" e conscientes praticamente sempre são usadas no caso em que os resultados são verificáveis ​​ou onde existem métricas de erro claramente visíveis. Se os resultados obtidos com a distribuição normal são obviamente inválidos ou incorretos, as pessoas começam a mexer com pesos, aparar, amostrar, ler alguns papéis e acabam usando estimadores robustos, sabendo ou não o termo. Por outro lado, se o resultado final da pesquisa é apenas alguns gráficos e diagramas, e não há insensibilidade para verificar os resultados, ou se as estatísticas normais produzem resultados bons o suficiente - as pessoas simplesmente não se incomodam.

E, finalmente, sobre a utilidade de estatísticas robustas como teoria - embora a própria teoria seja muito interessante, muitas vezes não oferece vantagens práticas. A maioria dos estimadores robustos é bastante trivial e intuitiva, muitas vezes as pessoas os reinventam sem nenhum conhecimento estatístico. Teoria, como estimativa de ponto de ruptura, assintóticos, profundidade de dados, heterocedência etc. permitem uma compreensão mais profunda dos dados, mas na maioria dos casos é apenas desnecessário. Uma grande exceção é a interseção de estatísticas robustas e sensoriamento compressivo, que produzem alguns novos métodos práticos, como "cross-and-bouquet"


5

Meu conhecimento de estimadores robustos é unicamente em relação a erros padrão robustos para parâmetros de regressão, portanto, meu comentário será apenas em relação a esses. Sugiro que as pessoas leiam este artigo,

Sobre o chamado "Huber Sandwich Estimator" e "Robust Standard Errors" por: Freedman, A. David The American Statistician, vol. 60, n ° 4. (novembro de 2006), pp. 299-302. doi: 10.1198 / 000313006X152207 ( versão em PDF )

Particularmente, o que me preocupa com essas abordagens não é o fato de estarem errados, mas de simplesmente distraírem problemas maiores. Assim, concordo plenamente com a resposta de Robin Girard e sua menção de "sem almoço grátis".


3

O cálculo e a probabilidade necessários para estatísticas robustas são (geralmente) mais difíceis, portanto (a) há menos teoria e (b) é mais difícil de entender.


2

Estou surpreso ao ver que o teorema de Gauss-Markov não é mencionado nesta longa lista de respostas, afaics:

Em um modelo linear com erros esféricos (que ao longo do caminho inclui uma suposição de ausência de valores extremos, por meio de uma variação finita de erros), o OLS é eficiente em uma classe de estimadores não lineares lineares - existem (restritivas, com certeza) condições sob as quais " você não pode fazer melhor que o OLS ".

Não estou argumentando que isso justifique o uso do OLS quase o tempo todo, mas certamente contribui para isso (principalmente porque é uma boa desculpa para se concentrar tanto no OLS no ensino).


Bem, sim, mas isso pressupõe que minimizar a variação é o critério relevante e, com caudas pesadas, pode não ser!
precisa saber é o seguinte

1
Certo. Eu só queria acrescentar o que acredito ser talvez o motivo mais famoso para pensar que o OLS é uma técnica útil à lista de razões compreensíveis pelas quais técnicas robustas não o substituíram : há casos em que você não deve substituí-lo.
Christoph Hanck

0

Meu palpite seria que as estatísticas robustas nunca são suficientes, ou seja, para serem robustas, essas estatísticas ignoram algumas das informações sobre a distribuição. E suspeito que nem sempre é uma coisa boa. Em outras palavras, há uma troca entre robustez e perda de informações.

Por exemplo, a mediana é robusta porque (diferentemente da média) utiliza informações apenas sobre a metade dos elementos (em casos discretos):

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
Consulte stats.stackexchange.com/questions/74113/… para obter uma situação em que a mediana é altamente frágil e a média é muito bem comportada.
Nick Cox
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.