Recomendações para artigos não técnicos, mas aprofundados, em estatística

24

A inspiração para esta pergunta vem do conhecido artigo de Leo-Breiman, Statistical Modeling: The Two Cultures (acesso aberto disponível). O autor compara o que vê como duas abordagens díspares para analisar dados, abordando idéias-chave em estatística clássica e aprendizado de máquina. No entanto, o artigo é inteligível para um grande público - sem dúvida para quem trabalha com dados, independentemente de ter pesquisado estatísticas no nível de doutorado ou ter feito apenas um curso introdutório. Além disso, o artigo é estimulante . Ou seja, gera prontamente discussões (como é evidenciado pela série de comentários animados publicados na mesma edição).

Estou curioso para descobrir mais artigos com essas qualidades. Ou seja, artigos que:

Toque em conceitos fundamentais em estatística / análise de dados
Pode ser entendido por um amplo público em termos de variação no foco da pesquisa e no treinamento estatístico formal
Estimule a discussão, seja através de discernimento ou controvérsia

references

— Richard Border
fonte

2

As respostas até agora foram muito interessantes! Mantenha-os chegando. Obviamente, não aceitarei nenhuma das respostas conforme meta.stats.stackexchange.com/questions/409/…

— Richard Border

2

Não há Royal Road para as estatísticas.

— Aksakal

15

Shmueli, Galit. "Para explicar ou prever?" Statistical science (2010): 289-310.

Eu acredito que combina com seus três pontos de bala.

Ele fala sobre modelagem explicativa versus modelagem preditiva (os termos devem ser autoexplicativos) e observa que as diferenças entre eles geralmente não são reconhecidas.

Isso indica que, dependendo do objetivo da modelagem (explicativo vs. preditivo), diferentes estratégias de construção de modelo podem ser usadas e diferentes modelos podem ser selecionados como "o melhor".

É um artigo bastante abrangente e uma leitura agradável. Uma discussão sobre isso está resumida na postagem do blog de Rob J. Hyndman . Uma discussão relacionada ao Cross Validated está neste tópico (com muitos votos positivos). Outra pergunta (sem resposta) sobre o mesmo tópico é essa .

— Richard Hardy
fonte

12

Lehmann, Erich L. "As teorias de Fisher, Neyman-Pearson de testar hipóteses: uma teoria ou duas?" Jornal da Associação Estatística Americana 88.424 (1993): 1242-1249.

Não se sabe a muitos, mas quando os gigantes da profissão ainda estavam entre nós, eles não se davam bem. O debate sobre os fundamentos do teste de hipóteses especificamente, seja indutivo ou dedutivo, viu alguns insultos bastante sérios voando entre Fisher, por um lado, e Neyman-Pearson, por outro. E o problema nunca foi resolvido durante a vida deles.

Muito tempo depois de terem passado, Lehmann tenta preencher a lacuna e, na minha opinião, faz um bom trabalho, pois mostra que as abordagens são complementares e não mutuamente exclusivas. É isso que os alunos aprendem hoje em dia, a propósito. Você precisa conhecer algumas coisas básicas sobre o teste de hipóteses, mas poderá seguir o artigo sem problemas.

— JohnK
fonte

1

Obrigado pela citação. Certa vez, fiz uma pergunta sobre o alegado conflito entre as abordagens de F e NP: stats.stackexchange.com/questions/112769 e, apesar de muita atenção e upvotes recebidos, ainda não estou convencido por nenhuma das respostas existentes (e não aceite qualquer). Eu pretendo voltar a esse tópico e ler / colocar uma recompensa ou algo assim, mas nunca encontro tempo; se você estiver familiarizado com o artigo de Lehmann, eu o incentivaria a contribuir com uma resposta lá.

— Ameba diz Reinstate Monica

@amoeba Eu li o jornal de Lehmann várias vezes, é muito legível, mas não acho que tenha pesquisado o assunto tão detalhadamente quanto você. Portanto, sempre que você tiver tempo, seria uma boa ideia analisá-lo e ver o ponto de vista dele. Você encontrará a discussão do problema de Behrens-Fisher particularmente reveladora.

— JohnK

Obrigado por compartilhar. Talvez tudo o que ouvi tenha sido unilateral, mas tudo que ouvi sobre Sir Ron Fisher é que ele era um homem bastante desagradável de se lidar, para dizer o mínimo. Ele também tinha algumas opiniões questionáveis sobre a ligação entre uso de tabaco e câncer de pulmão .

— Phil

Uma alternativa "mais leve" ao artigo é Christensen, Ronald. "Testando Fisher, Neyman, Pearson e Bayes." The American Statistician 59.2 (2005): 121-126. Achei agradável.

— Richard Hardy

9

Wilk, MB e Gnanadesikan, R. 1968. Métodos de plotagem de probabilidade para a análise de dados. Biometrika 55: 1-17. Link Jstor se você tiver acesso

Este artigo tem quase 50 anos, mas ainda parece novo e inovador. Usando uma rica variedade de exemplos interessantes e substanciais, os autores unificam e ampliam uma variedade de idéias para plotar e comparar distribuições usando a estrutura de gráficos QQ (quantil-quantile) e PP (probabilidade-probabilidade). As distribuições aqui significam amplamente qualquer conjunto de dados ou números (resíduos, contrastes, etc., etc.) que surjam em suas análises.

Versões particulares desses gráficos remontam a várias décadas, obviamente com probabilidade normal ou gráficos de pontuação normais. que são nesses termos gráficos quantil-quantil, ou seja, gráficos de quantis observados versus quantis esperados ou teóricos de uma amostra do mesmo tamanho de uma distribuição normal (gaussiana). Mas os autores mostram, de maneira modesta e confiante, que as mesmas idéias podem ser estendidas facilmente - e praticamente com a computação moderna - para examinar outros tipos de quantis e plotar os resultados automaticamente.

Os autores, então ambos no Bell Telephone Laboratories, desfrutavam de instalações de computação de ponta, e mesmo muitas universidades e instituições de pesquisa levaram uma década ou mais para se atualizar. Mesmo agora, as idéias neste artigo merecem uma aplicação mais ampla do que recebem. É um texto ou curso introdutório raro que inclui qualquer uma dessas idéias além da trama normal de QQ. Histogramas e gráficos de caixas (cada um com muita utilidade, mas, apesar disso, cada um é estranho e limitado de várias maneiras) continuam a ser os principais grampos quando são introduzidos gráficos de distribuições.

No nível pessoal, mesmo que as principais idéias deste artigo tenham sido familiares durante a maior parte da minha carreira, gosto de relê-lo a cada dois anos ou mais. Uma boa razão é o prazer pela maneira como os autores produzem idéias simples, mas poderosas, com bons exemplos com exemplos sérios. Outra boa razão é a maneira como o artigo, que é escrito de maneira concisa, sem o menor traço de bombardeio, sugere extensões das idéias principais. Mais de uma vez, redescobri reviravoltas nas idéias principais abordadas explicitamente em dicas e comentários adicionais.

Este não é apenas um artigo para aqueles especialmente interessados em gráficos estatísticos, embora, a meu ver, deva incluir todos os interessados em qualquer tipo de estatística. Promove maneiras de pensar sobre distribuições que são praticamente úteis no desenvolvimento de habilidades e idéias estatísticas de qualquer pessoa.

— Nick Cox
fonte

2

Esta é uma ótima escolha. Eu li isso várias vezes - assim que vi os nomes dos autores em sua resposta, soube qual era o artigo e imediatamente quis lê-lo novamente. Eu acho que tenho uma cópia dele aqui em algum lugar ...

— Glen_b -Reinstate Monica 02/02

6

Ioannidis, John PA "Por que a maioria das descobertas de pesquisas publicadas é falsa". Medicina PLoS (2005)

Ioannidis, John PA "Como tornar mais verdadeira a pesquisa publicada". Medicina PLoS (2014)

Deve ler para todo pesquisador / estatístico / analista que deseja evitar os perigos de usar e interpretar estatísticas incorretamente na pesquisa. O artigo de 2005 foi o mais acessado na história da Biblioteca Pública de Ciências e estimulou muita controvérsia e discussão.

— LindsayL
fonte

6

Tukey, JW (1960) Conclusões vs Decisões Tecnométricas 2 (4): 423-433

Este artigo é baseado em uma palestra após o jantar de Tukey e há um comentário de que "uma discussão considerável se seguiu", para que corresponda a pelo menos o terço de seus pontos pontuais.

Li este artigo pela primeira vez quando estava concluindo um doutorado em engenharia e apreciei sua exploração dos aspectos práticos da análise de dados.

— Tony Ladson
fonte

Link não funciona. Isso funciona

— kjetil b halvorsen

5

Efron e Morris, 1977, Stein's Paradox in Statistics .

Efron e Morris escreveram uma série de artigos técnicos sobre o estimador de James-Stein na década de 1970, enquadrando o "paradoxo" de Stein no contexto empírico de Bayes. O artigo de 1977 é popular, publicado na Scientific American .

É uma ótima leitura.

— ameba diz Restabelecer Monica
fonte

3

Bem, apesar do maior interesse no modelo de Roy estar entre os economistas (mas posso estar errado), seu artigo original "Some Thoughts on the Distribution of Earnings" de 1951, é uma discussão perspicaz e não técnica sobre o problema de auto-seleção. Este artigo serviu de inspiração para os modelos de seleção desenvolvidos pelo prêmio Nobel James Heckman. Embora velho, acho que combina com seus três pontos de bala.

— Rodrigo Remedio
fonte