Quais são os avanços nas estatísticas dos últimos 15 anos?


56

Ainda me lembro do artigo dos Annals of Statistics sobre Boosting, de Friedman-Hastie-Tibshirani, e dos comentários sobre os mesmos assuntos de outros autores (incluindo Freund e Schapire). Naquela época, claramente o Boosting era visto como um avanço em muitos aspectos: computacionalmente viável, um método de conjunto, com desempenho excelente, porém misterioso. Na mesma época, o SVM atingiu a maioridade, oferecendo uma estrutura sustentada por teoria sólida e com muitas variantes e aplicações.

Isso foi nos maravilhosos anos 90. Nos últimos 15 anos, parece-me que muitas estatísticas foram uma operação de limpeza e detalhamento, mas com poucas visualizações realmente novas.

Então, eu vou fazer duas perguntas:

  1. Perdi algum papel revolucionário / seminal?
  2. Caso contrário, existem novas abordagens que você acha que têm o potencial de mudar o ponto de vista da inferência estatística?

Regras:

  1. Uma resposta por post;
  2. Referências ou links são bem-vindos.

PS: Eu tenho alguns candidatos a avanços promissores. Vou publicá-los mais tarde.


5
Veja stats.stackexchange.com/q/1883/159 para uma pergunta semelhante (que foi fechada como subjetiva e argumentativa).
Rob Hyndman

11
Eu estava prestes a trazer a mesma discussão. Cheira como uma duplicata.
Dirk Eddelbuettel

11
É subjetivo, claro, mas ainda não está bom para a CW?
Christopher Aden

11
Isso foi em uma escala de tempo mais longa. Eu não acho que é uma duplicata. Quanto à argumentação, cabe aos participantes. Não estou tentando atribuir um troféu aqui, apenas para acompanhar os trabalhos seminais que eu e outros podemos ter perdido. Como não há resposta certa, sou a favor de uma CW. Acho interessante que até agora todas as respostas estejam sobre inovações bayesianas.
gappy

2
Parece um post que pode ser adquirido. Eu acho que isso pode ficar aberto.
gung - Restabelece Monica

Respostas:


43

A resposta é tão simples que eu tenho que escrever toda essa bobagem para fazer o CV, deixe-me publicá-la: R


14

Não tenho certeza se você chamaria isso de "avanço", mas a publicação da Teoria das Probabilidades: A Lógica da Ciência por Edwin Jaynes e Larry Bretthorst pode ser digna de nota. Algumas das coisas que eles fazem aqui são:

1) mostram equivalência entre alguns esquemas iterativos de "ajuste sazonal" e integração bayesiana de "parâmetro de incômodo".

2) resolveu o chamado "Paradoxo da Marginalização" - considerado a "morte do bayesianismo" por alguns, e a "morte de priores impróprios" por outros.

3) a idéia de que probabilidade descreve um estado de conhecimento sobre uma proposição ser verdadeira ou falsa, em vez de descrever uma propriedade física do mundo .

Os três primeiros capítulos deste livro estão disponíveis gratuitamente aqui .


2
Infelizmente, a resolução de Jaynes sobre o paradoxo da marginalização foi falha. Veja as notas de Kevin Van Horn sobre o tratamento de Jaynes do paradoxo da marginalização , disponível aqui .
Ciano

11
@yan - Observe que, embora sua resolução tenha sido falha em algumas áreas, seus princípios subjacentes a resolveram. A regra geral dos priores próprios e seus limites convergentes significa que o mp não pode surgir. A falha é provavelmente devido ao livro estar inacabado na maior parte da parte dois. Eu gosto da resolução [aqui] ( arxiv.org/abs/math/0310006 ) melhor que a versão ksvh. mais curto e mais geral.
probabilityislogic

14

Como estatístico aplicado e autor ocasional de software secundário, eu diria:

WinBUGS (lançado em 1997)

É baseado no BUGS, lançado há mais de 15 anos (1989), mas foi o WinBUGS que tornou a análise bayesiana de modelos realisticamente complexos disponível para uma base de usuários muito mais ampla. Ver, por exemplo , Lunn, Spiegelhalter, Thomas & Best (2009) (e a discussão sobre ele em Statistics in Medicine vol. 28, edição 25 ).


2
Como isso muda agora que Stansaiu?
Ari B. Friedman

13

kEuEu


Você já usou o LARS? Estou perguntando, porque nunca ouvi falar disso antes e parece realmente interessante. O artigo original é um pouco longo (93 páginas), então gostaria de ter uma opinião antes de aprofundar.
Tomek Tarczynski

@Tomek Tarczynski: usei uma pequena quantidade. Existe um pacote no Matlab (tenho certeza de que existe um ou mais no R), que usei. Ele também fornece um PCA esparso, no qual eu estava mais interessado. Admito que apenas passei o papel no papel. ;)
shabbychef

11

A introdução da função de perda "discrepância intrínseca" e outras funções de perda "sem parametrização" na teoria da decisão. Tem muitas outras propriedades "agradáveis", mas acho que a melhor é a seguinte:

θθeθg(θ)g(θe)

Eu acho isso muito legal! (por exemplo, a melhor estimativa das probabilidades de log é log (p / (1-p)), a melhor estimativa de variância é o quadrado do desvio padrão, etc. etc.)

A pegada? a discrepância intrínseca pode ser bastante difícil de resolver! (envolve min () funcion, uma razão de verossimilhança e integrais!)

A "contra-captura"? você pode "reorganizar" o problema para facilitar o cálculo!

O "contador-contra-captura"? descobrir como "reorganizar" o problema pode ser difícil!

Aqui estão algumas referências que eu sei que usam essa função de perda. Embora eu goste muito das partes de "estimativa intrínseca" desses documentos / slides, tenho algumas reservas sobre a abordagem "referência anterior", que também é descrita.

Teste de Hipótese Bayesiana: Uma Abordagem de Referência

Estimação intrínseca

Comparando médias normais: novos métodos para um problema antigo

Estimativa bayesiana objetiva integrada e teste de hipóteses



9

Adicionando meus próprios 5 centavos, acredito que o avanço mais significativo dos últimos 15 anos foi o Compressed Sensing. LARS, LASSO e uma série de outros algoritmos se enquadram nesse domínio, pois o Compressed Sensing explica por que eles funcionam e os estende a outros domínios.


11
Eu observei o Compressed Sensing e, como não estatístico, fico me perguntando: "Isso não é apenas projeção aleatória inversa?". Eu sei que "apenas" é uma palavra fácil de se expressar, mas parece que as pessoas estão deixando de fora o que parecem conexões óbvias entre projeção aleatória (por volta de 2000) e sensor comprimido (por volta de 2004).
Wayne

9

Algo que tem muito pouco a ver com as próprias estatísticas, mas tem sido extremamente benéfico: o crescente poder de fogo dos computadores, tornando mais acessíveis conjuntos de dados maiores e análises estatísticas mais complexas, especialmente em campos aplicados.


8

O algoritmo de propagação de expectativas para a inferência bayesiana, especialmente na classificação do processo gaussiano, foi sem dúvida um avanço significativo, pois fornece um método de aproximação analítica eficiente que funciona quase tão bem quanto abordagens baseadas em amostragem computacionalmente caras (ao contrário da aproximação usual de Laplace). Veja o trabalho de Thomas Minka e outros no roteiro do PE


O EP parece legal (embora ainda machuque minha cabeça). Ainda falta garantias gerais de convergência?
conjugateprior



2

Embora um pouco mais geral que as estatísticas, acho que houve importantes avanços nos métodos de pesquisa reproduzível (RR) . Por exemplo, o desenvolvimento de R knittreSweavepacotes e notebooks "R Markdown", as melhorias no LyX e no LaTeX contribuíram significativamente para o compartilhamento de dados, colaboração, verificação / validação e até mesmo o avanço estatístico adicional. Os artigos publicados em periódicos estatísticos, médicos e epidemiológicos raramente permitem reproduzir resultados facilmente antes do surgimento desses métodos / tecnologias de pesquisa reproduzíveis. Agora, vários periódicos exigem pesquisa reproduzível e muitos estatísticos estão usando RR e postando código, seus resultados e fontes de dados na web. Isso também ajudou a promover disciplinas de ciência de dados e tornou o aprendizado estatístico mais acessível.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.