Ao resolver problemas de negócios usando dados, é comum que pelo menos uma suposição de que a subclasse de estatísticas clássicas seja inválida. Na maioria das vezes, ninguém se incomoda em verificar essas suposições para que você nunca saiba.
Por exemplo, que muitas das métricas comuns da Web são "de cauda longa" (em relação à distribuição normal), estão agora tão bem documentadas que nós tomamos isso como garantido. Outro exemplo, comunidades on-line - mesmo em comunidades com milhares de membros, está bem documentado que, de longe, a maior parcela de contribuição / participação em muitas dessas comunidades é atribuída a um minúsculo grupo de 'super-contribuidores'. (Por exemplo, alguns meses atrás, logo após a disponibilização da API do SO na versão beta, um membro do StackOverflow publicou uma breve análise dos dados que ele coletou por meio da API; sua conclusão - menos de um por cento dos membros do SO representam a maior parte dos a atividade no SO (presumivelmente, fazendo perguntas e respondendo a elas), outros 1-2% responderam pelo restante e a esmagadora maioria dos membros não faz nada).
Distribuições desse tipo - novamente mais frequentemente a regra do que a exceção - geralmente são melhor modeladas com uma função de densidade da lei de energia . Para esse tipo de distribuição, mesmo o teorema do limite central é problemático de aplicar.
Dada a abundância de populações como essa que interessa aos analistas e o fato de os modelos clássicos terem um desempenho comprovadamente fraco nesses dados, e os métodos robustos e resistentes já existem há algum tempo (pelo menos 20 anos, acredito) - por que eles não são usados com mais frequência? (Eu também estou querendo saber porque eu não usá-los com mais freqüência, mas isso não é realmente uma pergunta para CrossValidated .)
Sim, eu sei que existem capítulos de livros didáticos dedicados inteiramente a estatísticas robustas e sei que existem (alguns) Pacotes R (a base robusta é a que eu estou familiarizado e uso), etc.
E, no entanto, dadas as vantagens óbvias dessas técnicas, elas geralmente são claramente as melhores ferramentas para o trabalho - por que não são usadas com muito mais frequência ? Não deveríamos esperar ver estatísticas robustas (e resistentes) usadas com muito mais frequência (talvez até presuntivamente) em comparação com os análogos clássicos?
A única explicação substantiva (ou seja, técnica) que ouvi é que técnicas robustas (da mesma forma para métodos resistentes) carecem do poder / sensibilidade das técnicas clássicas. Não sei se isso é verdade em alguns casos, mas sei que não é verdade em muitos casos.
Uma palavra final de preempção: sim, eu sei que esta pergunta não tem uma única resposta comprovadamente correta; muito poucas perguntas neste site fazem. Além disso, esta questão é uma investigação genuína; não é um pretexto para avançar um ponto de vista - não tenho um ponto de vista aqui, apenas uma pergunta pela qual espero obter algumas respostas perspicazes.