Devo ensinar estatística bayesiana ou freqüentista primeiro?

32

Estou ajudando meus meninos, atualmente no ensino médio, a entender estatística, e estou pensando em começar com alguns exemplos simples, sem desconsiderar alguns vislumbres da teoria.

Meu objetivo seria fornecer a eles a abordagem mais intuitiva, mas instrumentalmente construtiva, para aprender estatística do zero, a fim de estimular o interesse deles em continuar buscando estatísticas e aprendizado quantitativo.

Antes de começar, porém, tenho uma pergunta específica com implicações muito gerais:

Deveríamos começar a ensinar estatística usando uma estrutura bayesiana ou freqüentista?

Pesquisando ao redor, vi que uma abordagem comum está começando com uma breve introdução sobre estatísticas freqüentistas, seguida de uma discussão aprofundada sobre estatísticas bayesianas (por exemplo, Stangl ).

— Joe_74
fonte

5

Sua pergunta é difícil de responder sem mais contexto. O que você gostaria de alcançar?

— Glen_b -Replica Monica

4

É ruim para os pais ensinar aos filhos as estatísticas bayesianas, como despejar vodka ou acender charutos. Note-se que tanto vodka e charutos são bons para adultos, desde que descobri-los por conta própria

— Aksakal

2

@Aksakal eu estava realmente planejando para ensinar-lhes teorema de Bayes, enquanto toma vodca e fumando charutos ... ;-)

— Joe_74

2

Essa é uma boa maneira de manter o garoto longe das estatísticas bayesianas por alguns anos. Você diz a eles que são apenas as aplicações do teorema de Bayes. O teorema funciona bem nas estatísticas frequentistas

— Aksakal

5

O livro de Nate Silver, "The Signal and the Noise", é um argumento para o ensino dos jovens estatísticas bayesianas.

— Lloyd Christmas

25

As estatísticas bayesianas e as estatísticas freqüentistas são baseadas na teoria da probabilidade, mas eu diria que a primeira se apóia mais fortemente na teoria desde o início. Por outro lado, certamente o conceito de um intervalo confiável é mais intuitivo do que o de um intervalo de confiança, uma vez que o aluno tenha uma boa compreensão do conceito de probabilidade. Portanto, o que você escolher, defendo, antes de tudo, o entendimento de conceitos de probabilidade, com todos esses exemplos baseados em dados, cartas, roleta, paradoxo de Monty Hall, etc.

Eu escolheria uma abordagem ou outra com base em uma abordagem puramente utilitária: é mais provável que eles estudem estatísticas freqüentistas ou bayesianas na escola? No meu país, eles definitivamente aprenderiam a estrutura freqüentadora primeiro (e por último: nunca ouviram falar de estudantes do ensino médio que recebem estatísticas Bayesianas, a única chance é na universidade ou depois, por auto-estudo). Talvez no seu seja diferente. Lembre-se de que, se eles precisam lidar com o NHST (Teste de Significação de Hipótese Nula), isso surge mais naturalmente no contexto de estatísticas freqüentistas, a IMO. É claro que você também pode testar hipóteses na estrutura bayesiana, mas existem muitos estatísticos bayesianos líderes que defendem a não utilização do NHST, sob a estrutura frequentista ou bayesiana (por exemplo, Andrew Gelman, da Columbia University).

Finalmente, eu não sei sobre o nível de estudantes do ensino médio no seu país, mas no meu seria muito difícil para um aluno assimilar com êxito (o básico da) teoria das probabilidades e cálculo integral ao mesmo tempo. Portanto, se você decidir ir com as estatísticas bayesianas, eu realmente evitaria o caso de variáveis aleatórias contínuas e me ateria a variáveis aleatórias discretas.

— DeltaIV
fonte

2

Fiquei impressionado (ao ler seu blog) que Andrew Gelman advogaria contra o NSHT freqüentista tanto quanto contra o Bayesiano.

— Psarka

2

@ psarka sim, com certeza - eu nunca disse o contrário.

— DeltaIV

3

"No meu país, eles definitivamente aprenderiam primeiro a estrutura freqüentista" - (ou omitindo a discussão sobre o bayesianismo) é a abordagem tradicional em todo o mundo.

— Kodiologist

1

@ Kodiologist Eu suspeitava disso. Pelo menos, pode haver alguns sistemas educacionais em que, após o quadro freqüentista, também o sistema bayesiano é introduzido no ensino médio. Mas esse não é o caso por aqui.

— DeltaIV 31/01

22

Bayesiano e freqüentador fazem perguntas diferentes. Bayesian pergunta que valores de parâmetros são credíveis, dados os dados observados. Frequentist pergunta sobre a probabilidade de dados simulados imaginários se alguns valores de parâmetros hipotéticos eram verdadeiros. As decisões freqüentistas são motivadas pelo controle de erros; as decisões bayesianas são motivadas pela incerteza nas descrições dos modelos.

Então, o que você deve ensinar primeiro? Bem, se uma ou outra dessas perguntas é o que você deseja fazer primeiro, essa é sua resposta. Mas em termos de acessibilidade e pedagogia, acho que o bayesiano é muito mais fácil de entender e muito mais intuitivo. A idéia básica da análise bayesiana é a realocação de credibilidade entre as possibilidades, exatamente como Sherlock Holmes disse, e que milhões de leitores entenderam intuitivamente. Mas a idéia básica da análise freqüentista é muito desafiadora: o espaço de todos os conjuntos de dados possíveis que poderiam ter acontecido se uma hipótese específica fosse verdadeira e a proporção desses conjuntos de dados imaginários que têm uma estatística resumida tão ou mais extrema que o resumo estatística que foi realmente observada.

Um capítulo introdutório gratuito sobre idéias bayesianas está aqui . Um artigo que define conceitos freqüentistas e bayesianos lado a lado está aqui . O artigo explica abordagens freqüentistas e bayesianas para testar hipóteses e estimar (e muitas outras coisas). A estrutura do artigo pode ser especialmente útil para iniciantes que tentam ter uma visão da paisagem.

— John K. Kruschke
fonte

A inclusão de títulos do capítulo e do artigo pode ser útil caso os links desapareçam no futuro.

— Richard Hardy

8

Essa pergunta corre o risco de ser baseada em opiniões, por isso vou tentar ser muito breve com a minha opinião e dar uma sugestão de livro. Às vezes, vale a pena adotar uma abordagem específica, porque é a abordagem adotada por um livro particularmente bom.

Concordo que as estatísticas bayesianas são mais intuitivas. A distinção Intervalo de Confiança versus Intervalo Credível resume bastante: as pessoas pensam naturalmente em termos de "qual é a chance disso ...", em vez da abordagem do Intervalo de Confiança. A abordagem do intervalo de confiança soa como se estivesse dizendo a mesma coisa que o intervalo de credibilidade, exceto por princípio geral que você não pode dar o último passo de "95% do tempo" para "95% de chance", o que parece muito frequente, mas você não posso fazer isso. Não é inconsistente, apenas não é intuitivo.

Equilibrando isso, o fato de que a maioria dos cursos universitários que eles fazem usará a abordagem freqüentista menos intuitiva.

Dito isto, gosto muito do livro Estatística Repensando: Um Curso Bayesiano com Exemplos em R e Stan de Richard McElreath. Não é barato, então leia sobre ele e dê uma olhada na Amazon antes de comprar. Acho que é uma abordagem particularmente intuitiva que tira proveito da abordagem bayesiana e é muito prática. (E como R e Stan são excelentes ferramentas para estatísticas bayesianas e são gratuitas, é um aprendizado prático.)

EDIT: Alguns comentários mencionaram que o livro provavelmente está além do ensino médio, mesmo com um tutor experiente . Portanto, terei que fazer uma ressalva ainda maior: ela tem uma abordagem simples no início, mas aumenta rapidamente. É um livro incrível, mas você realmente precisa vasculhá-lo na Amazon para ter uma idéia de suas suposições iniciais e da rapidez com que ele se intensifica. Belas analogias, excelente trabalho prático em R, fluxo e organização incríveis, mas talvez não sejam úteis para você.

Ele pressupõe um conhecimento básico de programação e R (pacote estatístico gratuito) e alguma exposição aos conceitos básicos de probabilidade e estatística. Não é de acesso aleatório e cada capítulo se baseia em capítulos anteriores. Começa muito simples, embora a dificuldade cresça no meio - termina na regressão em vários níveis. Portanto, você pode visualizar um pouco disso na Amazon e decidir se pode cobrir facilmente o básico ou se ele salta um pouco demais na estrada.

EDIÇÃO 2: O resultado final da minha contribuição aqui e a tentativa de desviá-la da opinião pura é que um bom livro pode decidir qual abordagem você adota. Eu preferiria uma abordagem bayesiana, e este livro faz isso bem, mas talvez em um ritmo muito rápido.

— Wayne
fonte

2

McElreath's book is excellent, but I would be really surprised if high school students would be able to follow that level of treatment, even with a talented tutor.

— DeltaIV

2

@DeltaIV: Good feedback, I'll edit my answer. I've been fooled several times by how readable and analogical it is at the beginning. It does enter a steep learning curve around halfway through, and probably a lot earlier than that.

— Wayne

1

Another note: I think there's a bigger gap between fundamentals (i.e., probability theory) and application in Frequentist methods over Bayesian methods. That is, I have trouble imagining someone really understanding MLE theory, proof of the CLT etc., without a graduate level education, which is required for even the most basic of Frequentist procedures. Once you know conditional probability, you basically understand how Bayesian inference works. MCMC theory is a bit tricky, but honestly much simpler than truly understanding MLE theory...

— Cliff AB

... and since it is easier to bridge the gap between probability and application of statistics in the Bayesian framework, at the very least, I think that makes things more mentally satisfying quicker. I hated TA-ing the courses where we had to say "and trust us, MLE theory works with large samples", as I felt that had to somewhat kill someone's scientific curiosity, or require a much larger mental commitment.

— Cliff AB

... But the intuition behind mle is natural enough ... stats.stackexchange.com/questions/112451/…

— kjetil b halvorsen

5

I have been taught the frequentist approach first, then the Bayesian one. I am not a professional statistician.

I have to admit I didn't find my prior knowledge of the frequentist approach to be decisively useful in understanding the Bayesian approach.

I would dare to say it depends on what concrete applications you will be showing your pupils next, and how much time and effort you will be spending on them.

Having said this, I would start with Bayes.

— Emanuele Cipolla
fonte

3

The Bayesian framework is tightly coupled to general critical thinking skills. It's what you need in the following situations:

You think about applying for a competitive job. What are your chances of getting in? What payoff do you expect from applying?
A headline tells you mobile phones cause cancer in humans in the long term. How much evidence do they have for this?
Which charity should you donate money to if you want it to have the greatest effect?
Someone offers to flip a coin with a bet of $0.90 from you and $1.10 from them. Would you give them the money? Why, why not?
You've lost your keys (or an atom bomb). Where do you start looking?

Also, this is much more interesting than memorising the formula for a two sample t-test :p. Which increases the chance that students will stay interested long enough to bother with increasingly technical material.

— conjectures
fonte

3

No one has mentioned likelihood, which is foundational to Bayesian statistics. An argument in favor of teaching Bayes first is that the flow from probability, to likelihood, to Bayes, is pretty seamless. Bayes can be motivated from likelihood by noting that (i) the likelihood function looks (and acts) like a probability distribution function, but is not because the area under the curve is not 1.0, and (ii) the crude, commonly-used Wald intervals assume a likelihood function that is proportional to a normal distribution, but Bayesian methods easily overcome this limitation.

Another argument favoring Bayes first is that the P(A|B) versus P(B|A) concern about p-values can be more easily explained, as mentioned by others.

Yet another argument favoring "Bayes first" is that it forces students to think more carefully about conditional probability models, which is useful elsewhere, e.g., in regression analysis.

Sorry for the self-promotion, but since it is entirely on-topic, I do not mind stating that this is precisely the approach that Keven Henning and I took in our book "Understanding Advanced Statistical Methods," (https://peterwestfall.wixsite.com/book-1) whose intended audience is non-statisticians.

— Peter Westfall
fonte

2

Are you teaching for fun and insight or for practical use? If it's about teaching and understanding, I'd go Bayes. If for practical purposes, I'd definitely go Frequentist.

In many fields -and I suppose most fields- of natural sciences, people are used to publish their papers with a p-value. Your "boys" will have to read other people's papers before they come to writing their own. To read other people's papers, at least in my field, they need to understand null hypotheses an p-values, no matter how stupid they may appear after Bayesian studies. And even when they are ready to publish their first paper, they will probably have some senior scientist leading the team and chances are, they prefer Frequentism.

That being said, I would like to concur with @Wayne , in that Statistical rethinking shows a very clear way towards Bayesian statistics as a first approach and not based on existing knowledge about Frequentism. It is great how this book does not try to convince you in a fight of the better or worse statistics. The stated argument of the author for Bayes is (IIRC) that he has been teaching both kinds and Bayes was easier to teach.

— Bernhard
fonte

2

I would stay away from Bayesian, follow the giants.

Soviets had an excellent book series for secondary school students, roughly translated into English as "'Quant' little library." Kolmogorov contributed a book with co-authors titled "Introduction to a probability theory." I'm not sure it has ever been translated into English, but here's the link to its Russian original.

They approach explaining the probabilities through combinatorics, which I think is the great way to start. The book is very accessible for a high school student with decent maths. Note, that Soviets taught math rather extensively, so the average Western high school students may not be as well prepared, but with enough interest and will power can still handle the content, in my opinion.

The content is very interesting for students, it has random walks, limiting distributions, survival processes, law of large numbers etc. If you combine this approach with computer simulations, it becomes even more fun.

— Aksakal
fonte