Recomendações para artigos não técnicos, mas aprofundados, em estatística


24

A inspiração para esta pergunta vem do conhecido artigo de Leo-Breiman, Statistical Modeling: The Two Cultures (acesso aberto disponível). O autor compara o que vê como duas abordagens díspares para analisar dados, abordando idéias-chave em estatística clássica e aprendizado de máquina. No entanto, o artigo é inteligível para um grande público - sem dúvida para quem trabalha com dados, independentemente de ter pesquisado estatísticas no nível de doutorado ou ter feito apenas um curso introdutório. Além disso, o artigo é estimulante . Ou seja, gera prontamente discussões (como é evidenciado pela série de comentários animados publicados na mesma edição).

Estou curioso para descobrir mais artigos com essas qualidades. Ou seja, artigos que:

  • Toque em conceitos fundamentais em estatística / análise de dados
  • Pode ser entendido por um amplo público em termos de variação no foco da pesquisa e no treinamento estatístico formal
  • Estimule a discussão, seja através de discernimento ou controvérsia

2
As respostas até agora foram muito interessantes! Mantenha-os chegando. Obviamente, não aceitarei nenhuma das respostas conforme meta.stats.stackexchange.com/questions/409/…
Richard Border

2
Não há Royal Road para as estatísticas.
Aksakal

Respostas:


15

Shmueli, Galit. "Para explicar ou prever?" Statistical science (2010): 289-310.

Eu acredito que combina com seus três pontos de bala.

Ele fala sobre modelagem explicativa versus modelagem preditiva (os termos devem ser autoexplicativos) e observa que as diferenças entre eles geralmente não são reconhecidas.

Isso indica que, dependendo do objetivo da modelagem (explicativo vs. preditivo), diferentes estratégias de construção de modelo podem ser usadas e diferentes modelos podem ser selecionados como "o melhor".

É um artigo bastante abrangente e uma leitura agradável. Uma discussão sobre isso está resumida na postagem do blog de Rob J. Hyndman . Uma discussão relacionada ao Cross Validated está neste tópico (com muitos votos positivos). Outra pergunta (sem resposta) sobre o mesmo tópico é essa .


12

Lehmann, Erich L. "As teorias de Fisher, Neyman-Pearson de testar hipóteses: uma teoria ou duas?" Jornal da Associação Estatística Americana 88.424 (1993): 1242-1249.

Não se sabe a muitos, mas quando os gigantes da profissão ainda estavam entre nós, eles não se davam bem. O debate sobre os fundamentos do teste de hipóteses especificamente, seja indutivo ou dedutivo, viu alguns insultos bastante sérios voando entre Fisher, por um lado, e Neyman-Pearson, por outro. E o problema nunca foi resolvido durante a vida deles.

Muito tempo depois de terem passado, Lehmann tenta preencher a lacuna e, na minha opinião, faz um bom trabalho, pois mostra que as abordagens são complementares e não mutuamente exclusivas. É isso que os alunos aprendem hoje em dia, a propósito. Você precisa conhecer algumas coisas básicas sobre o teste de hipóteses, mas poderá seguir o artigo sem problemas.


1
Obrigado pela citação. Certa vez, fiz uma pergunta sobre o alegado conflito entre as abordagens de F e NP: stats.stackexchange.com/questions/112769 e, apesar de muita atenção e upvotes recebidos, ainda não estou convencido por nenhuma das respostas existentes (e não aceite qualquer). Eu pretendo voltar a esse tópico e ler / colocar uma recompensa ou algo assim, mas nunca encontro tempo; se você estiver familiarizado com o artigo de Lehmann, eu o incentivaria a contribuir com uma resposta lá.
Ameba diz Reinstate Monica

@amoeba Eu li o jornal de Lehmann várias vezes, é muito legível, mas não acho que tenha pesquisado o assunto tão detalhadamente quanto você. Portanto, sempre que você tiver tempo, seria uma boa ideia analisá-lo e ver o ponto de vista dele. Você encontrará a discussão do problema de Behrens-Fisher particularmente reveladora.
JohnK

Obrigado por compartilhar. Talvez tudo o que ouvi tenha sido unilateral, mas tudo que ouvi sobre Sir Ron Fisher é que ele era um homem bastante desagradável de se lidar, para dizer o mínimo. Ele também tinha algumas opiniões questionáveis ​​sobre a ligação entre uso de tabaco e câncer de pulmão .
Phil

Uma alternativa "mais leve" ao artigo é Christensen, Ronald. "Testando Fisher, Neyman, Pearson e Bayes." The American Statistician 59.2 (2005): 121-126. Achei agradável.
Richard Hardy

9

Wilk, MB e Gnanadesikan, R. 1968. Métodos de plotagem de probabilidade para a análise de dados. Biometrika 55: 1-17. Link Jstor se você tiver acesso

Este artigo tem quase 50 anos, mas ainda parece novo e inovador. Usando uma rica variedade de exemplos interessantes e substanciais, os autores unificam e ampliam uma variedade de idéias para plotar e comparar distribuições usando a estrutura de gráficos QQ (quantil-quantile) e PP (probabilidade-probabilidade). As distribuições aqui significam amplamente qualquer conjunto de dados ou números (resíduos, contrastes, etc., etc.) que surjam em suas análises.

Versões particulares desses gráficos remontam a várias décadas, obviamente com probabilidade normal ou gráficos de pontuação normais. que são nesses termos gráficos quantil-quantil, ou seja, gráficos de quantis observados versus quantis esperados ou teóricos de uma amostra do mesmo tamanho de uma distribuição normal (gaussiana). Mas os autores mostram, de maneira modesta e confiante, que as mesmas idéias podem ser estendidas facilmente - e praticamente com a computação moderna - para examinar outros tipos de quantis e plotar os resultados automaticamente.

Os autores, então ambos no Bell Telephone Laboratories, desfrutavam de instalações de computação de ponta, e mesmo muitas universidades e instituições de pesquisa levaram uma década ou mais para se atualizar. Mesmo agora, as idéias neste artigo merecem uma aplicação mais ampla do que recebem. É um texto ou curso introdutório raro que inclui qualquer uma dessas idéias além da trama normal de QQ. Histogramas e gráficos de caixas (cada um com muita utilidade, mas, apesar disso, cada um é estranho e limitado de várias maneiras) continuam a ser os principais grampos quando são introduzidos gráficos de distribuições.

No nível pessoal, mesmo que as principais idéias deste artigo tenham sido familiares durante a maior parte da minha carreira, gosto de relê-lo a cada dois anos ou mais. Uma boa razão é o prazer pela maneira como os autores produzem idéias simples, mas poderosas, com bons exemplos com exemplos sérios. Outra boa razão é a maneira como o artigo, que é escrito de maneira concisa, sem o menor traço de bombardeio, sugere extensões das idéias principais. Mais de uma vez, redescobri reviravoltas nas idéias principais abordadas explicitamente em dicas e comentários adicionais.

Este não é apenas um artigo para aqueles especialmente interessados ​​em gráficos estatísticos, embora, a meu ver, deva incluir todos os interessados ​​em qualquer tipo de estatística. Promove maneiras de pensar sobre distribuições que são praticamente úteis no desenvolvimento de habilidades e idéias estatísticas de qualquer pessoa.


2
Esta é uma ótima escolha. Eu li isso várias vezes - assim que vi os nomes dos autores em sua resposta, soube qual era o artigo e imediatamente quis lê-lo novamente. Eu acho que tenho uma cópia dele aqui em algum lugar ...
Glen_b -Reinstate Monica 02/02

6

Ioannidis, John PA "Por que a maioria das descobertas de pesquisas publicadas é falsa". Medicina PLoS (2005)

Ioannidis, John PA "Como tornar mais verdadeira a pesquisa publicada". Medicina PLoS (2014)

Deve ler para todo pesquisador / estatístico / analista que deseja evitar os perigos de usar e interpretar estatísticas incorretamente na pesquisa. O artigo de 2005 foi o mais acessado na história da Biblioteca Pública de Ciências e estimulou muita controvérsia e discussão.


6

Tukey, JW (1960) Conclusões vs Decisões Tecnométricas 2 (4): 423-433

Este artigo é baseado em uma palestra após o jantar de Tukey e há um comentário de que "uma discussão considerável se seguiu", para que corresponda a pelo menos o terço de seus pontos pontuais.

Li este artigo pela primeira vez quando estava concluindo um doutorado em engenharia e apreciei sua exploração dos aspectos práticos da análise de dados.


Link não funciona. Isso funciona
kjetil b halvorsen

5

Efron e Morris, 1977, Stein's Paradox in Statistics .

Efron e Morris escreveram uma série de artigos técnicos sobre o estimador de James-Stein na década de 1970, enquadrando o "paradoxo" de Stein no contexto empírico de Bayes. O artigo de 1977 é popular, publicado na Scientific American .

É uma ótima leitura.


3

Bem, apesar do maior interesse no modelo de Roy estar entre os economistas (mas posso estar errado), seu artigo original "Some Thoughts on the Distribution of Earnings" de 1951, é uma discussão perspicaz e não técnica sobre o problema de auto-seleção. Este artigo serviu de inspiração para os modelos de seleção desenvolvidos pelo prêmio Nobel James Heckman. Embora velho, acho que combina com seus três pontos de bala.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.