Quais são bons exemplos para mostrar aos estudantes de graduação?


9

Vou ensinar estatística como assistente de ensino no segundo semestre deste semestre a estudantes de graduação orientados para o ensino médio. A maioria dos alunos que frequentou a aula não tem incentivo para aprender a matéria e a levou apenas para os principais requisitos. Quero tornar o assunto interessante e útil, não apenas uma aula que eles aprendem a obter um B + para passar.

Como um estudante de doutorado em matemática pura, sabia pouco sobre o lado aplicado da vida real. Quero pedir algumas aplicações reais da estatística de graduação. Exemplos que estou procurando são aqueles (em espírito) como:

1) Mostrar o teorema do limite central é útil para certos dados de amostra grandes.

2) Forneça um contra-exemplo de que o teorema do limite central não é aplicável (por exemplo, os que seguem a distribuição de Cauchy).

3) Mostrando como o teste de hipóteses funciona em exemplos famosos da vida real usando o teste Z, teste t ou algo assim.

4) Mostrar como o excesso de ajuste ou a hipótese inicial errada podem dar resultados errados.

5) Mostrar como o valor de p e o intervalo de confiança funcionaram em casos da vida real (conhecidos) e onde eles não funcionam tão bem.

6) Da mesma forma, erros do tipo I, tipo II, poder estatístico, nível de rejeição , etc.α

Meu problema é que, embora eu tenha muitos exemplos no lado da probabilidade (arremesso de moedas, arremesso de dados, ruína do jogador, martingales, caminhada aleatória, paradoxo dos três prisioneiros, problema de monty hall, métodos de probabilidade no design de algoritmos etc.), não sei como. muitos exemplos canônicos no lado das estatísticas. O que quero dizer são exemplos sérios e interessantes que têm algum valor pedagógico, e não é extremamente artificialmente inventado que parece muito distanciado da vida real. Não quero dar aos alunos a falsa impressão de que o teste Z e o teste T são tudo. Mas, devido à minha formação matemática pura, não conheço exemplos suficientes para tornar a aula interessante e útil para eles. Então, eu estou procurando por alguma ajuda.

O nível do meu aluno é em torno do cálculo I e II. Eles nem conseguem mostrar que a variação da normal padrão é 1 por definição, pois não sabem como avaliar o kernel gaussiano. Portanto, qualquer coisa um pouco teórica ou computacional prática (como distribuição hipergeométrica, arcos na lei em caminhada aleatória 1D) não vai funcionar. Quero mostrar alguns exemplos que eles podem entender não apenas "como", mas também "por que". Caso contrário, não tenho certeza se vou provar o que disse por intimidação.


2
Atualmente, parece um pouco amplo e pouco focado "algumas aplicações reais da estatística de graduação" não é especialmente adequado para o formato de controle de qualidade. Na melhor das hipóteses, é uma questão de "lista grande". Se (3) sozinho pode ser muito amplo e sem foco, mas pode ser um freqüentador com um pouco de reformulação, e (4) pode ficar sozinho o suficiente com um pouco mais de foco. (1) não pode ter sucesso em nenhum caso, uma vez que o teorema do limite central realmente não nos diz nada sobre o que acontece em ou ou . Não é um resultado de amostra finita. n = 1000 n = 10 10n=100n=1000n=1010
Glen_b -Reinstala Monica 28/03

3
O teorema de Berry-Esseen (que eu espero que você não ensine nesse nível) poderia ser usado com amostras finitas. Informalmente, é claro, os meios amostrais de distribuições específicas tornam-se cada vez mais normais à medida que o tamanho das amostras aumenta, mas não podemos realmente dizer "esse é o teorema do limite central", já que o CLT não diz nada sobre isso. Além disso, para mostrar as coisas cada vez mais próximas de uma distribuição normal, você precisa de uma sequência de tamanhos de amostra. Na coleta de dados do mundo real, isso é comum apenas nos dados coletados ao longo do tempo (por isso, se você estiver assumindo o iid, poderá ter alguma dificuldade).
Glen_b -Reinstala Monica

2
Há um conjunto de dados real (a partir de um experimento - se um pouco artificial) set - 40000 lançamentos de moeda - ligada a partir de aqui
Glen_b -Reinstate Monica

11
Você pode mostrar a eles algo sobre como os meios de amostra se comportam em situações específicas com o aumento do tamanho da amostra - isso é bastante útil; não é estritamente preciso atribuí-lo ao CLT. Os dados do sorteio podem ser úteis para isso (da mesma forma que os dados gerados por eles mesmos). Porém, convém ler as informações no link antes de obter os dados, porque há um recurso importante dos dados (que também é a motivação para coletá-las em primeiro lugar).
Glen_b -Reinstala Monica

11
Exemplos de quase tudo o que você lista são fornecidos em bons textos de estatísticas de introdução, como Freedman, Pisani e Purves . (Vinculei a Terceira edição, que você pode encontrar facilmente com menos de US $ 10. Qualquer edição será boa; a edição mais recente pode ter exemplos mais atualizados.)
whuber

Respostas:


1

Uma boa maneira pode ser instalar o R ​​( http://www.r-project.org/ ) e usar seus exemplos para o ensino. Você pode acessar a ajuda no R com os comandos "? T.test" etc. No final de cada arquivo de ajuda, há exemplos. Para t.test, por exemplo:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

insira a descrição da imagem aqui


1

Sugiro uma aplicação do teorema do limite central para pré-determinação do tamanho da amostra e encontrar uma resposta para perguntas como "enviei questionários suficientes" etc.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf fornece um bom exemplo do mundo real de como aplicar o teorema do limite central. Uma estratégia didática pode ser:

Uma teoria

* deixar clara a diferença entre uma distribuição de amostragem e a distribuição de uma estimativa, por exemplo, pela distribuição "plana" de rolar um dado versus a distribuição da média de N dados (use R ou permita que os alunos se divirtam com o desenho do Excel único distribuições de valores versus distribuição de médias)

* mostre o cálculo baseado em fórmulas de percentis para a distribuição da média (como você estuda matemática, pode derivar a fórmula) - esse ponto corresponde aos slides 10 a 17 da apresentação vinculada acima

e depois (como no slide 20 da apresentação vinculada acima):

B) aplicação

* mostre como o teorema do limite central ajuda a determinar o tamanho da amostra para uma exatidão desejada nas estimativas da média

Esta aplicação B) é o que, na minha experiência, os não estatísticos esperam de um estatístico - respondendo a perguntas do tipo "tenho dados suficientes?"


1

Como você está ensinando estudantes de ciências da computação, uma boa aplicação do Teorema do Limite Central pode ser estimar a média de um conjunto de dados massivo (ou seja,> 100 milhões de registros). Pode ser instrutivo mostrar que não é necessário calcular a média de todo o conjunto de dados, mas sim coletar amostras do conjunto de dados e usar a média da amostra para estimar a média de todo o conjunto de dados / banco de dados. Você poderia dar um passo adiante se desejar e simular um conjunto de dados que tenha valores drasticamente diferentes para diferentes subgrupos. Você pode pedir aos alunos que explorem a amostragem estratificada para obter estimativas mais precisas.

Novamente, como existem estudantes de CS, convém executar algumas instruções para obter intervalos de confiança também ou para estimar as variações de estatísticas mais complexas. Esta é uma boa interseção entre estatística e computador, pois, na minha opinião, pode levar a um maior interesse no assunto.


1

Comecei digitando um comentário, mas ficou muito longo ...

σ

Então, na minha opinião, eles vão gostar se você apresentar inferência do ponto de vista do "aprendizado" e se você apresentar testes do ponto de vista da "teoria da decisão" ou da "classificação" - em suma, eles devem gostar de algoritmos. Grok algoritmos!

Além disso, tente encontrar conjuntos de dados relacionados ao CS; por exemplo, a duração das conexões e o número de solicitações por unidade de tempo para um servidor html podem ajudar a ilustrar muitos conceitos.

Eles vão adorar aprender técnicas de simulação. Os geradores Lehmer são fáceis de implementar. Mostre a eles como simular outras distribuições invertendo o cdf. Se você gosta disso, mostre a eles o algoritmo Ziggurat de Marsaglia. Ah, e o gerador MWC256 da Marsaglia é uma pequena jóia. Os testes de Diehard por Marsaglia (testes de imparcialidade de geradores uniformes) podem ajudar a ilustrar muitos conceitos de probabilidade e estatística. Você pode até optar por apresentar a teoria da probabilidade com base em "fluxos (independentes) de duplos aleatórios, oups, quero dizer reais" - isso é um pouco atrevido, mas pode ser grandioso.

t

Se você dominar o assunto o suficiente, não hesite em ser original. As aulas "clássicas" são válidas quando você ensina algo com o qual não está totalmente familiarizado. Boa sorte e, se você divulgar algumas notas de aula, entre em contato!


1

Você diz que isso é estudantes de ciência da computação. Quais são os seus interesses, isso é principalmente ciência da computação teórica, ou estudantes são motivados principalmente pela preparação para empregos? Você também pode nos dizer qual é a descrição do curso!

Mas, qualquer que seja a sua resposta a essas perguntas, você pode começar com algumas estatísticas práticas que ocorrem em contextos de informática, como (por exemplo) web design. Ocasionalmente, este site tem perguntas sobre isso, como taxas de conversão ao longo do tempo ou /stats/96853/comparing-sales-person-conversion-rates ou AB Testing outros fatores além da taxa de conversão .

Existem muitas perguntas aqui como essas, aparentemente de pessoas envolvidas em web design. A situação é que você tem alguma página da web (por exemplo, você vende alguma coisa). A "taxa de conversão", pelo que entendi, é a porcentagem de visitantes que realizam alguma tarefa preferida (como compra ou outra meta que você tem para seus visitantes). Então, como web designer, pergunte se o layout da página influencia esse comportamento. Assim, você programa duas (ou mais) versões da página da web, escolhe aleatoriamente qual versão apresentar a algum novo cliente e pode comparar as taxas de conversão e, finalmente, optar por implementar a versão com a maior taxa de conversão.

Esse é um problema de design de um experimento de comparação e você precisa de métodos estatísticos para comparar porcentagens, ou talvez diretamente da tabela de contingência de designs versus converter / não converter. Esse exemplo pode mostrar a eles que as estatísticas podem realmente ser úteis para eles em algum trabalho de desenvolvimento da web! E, do lado estatístico, abre muitas perguntas interessantes sobre a validade das suposições ...

Para se conectar ao que você diz sobre o teorema do limite central, você pode perguntar quantas observações são necessárias antes de poder tratar as porcentagens como normalmente distribuídas e pedir que estudem isso usando simulação ...

Você pode pesquisar neste site outras questões estatísticas colocadas por tipos de programadores ...


-2

Sugiro que, antes de qualquer bom exemplo, é melhor focar em definições claras. Na minha experiência, probabilidade e estatística de graduação é um curso repleto de palavras que nenhum dos alunos entende. Como um experimento, pergunte aos alunos que acabaram de terminar um curso de probabilidade o que é uma "variável aleatória". Eles podem dar exemplos, mas duvido que a maioria dê uma definição clara disso. O que exatamente é "probabilidade"? O que é uma "distribuição"? A terminologia nas estatísticas é ainda mais confusa. A maioria dos livros de graduação que eu vi faz um trabalho muito ruim ao explicar isso. Exemplos e cálculos são bons, mas sem definições claras, não é tão útil quanto se poderia pensar. Falando da minha experiência, era exatamente por isso que eu odiava a teoria da probabilidade na graduação. Embora meus interesses estejam tão distantes da probabilidade quanto possível, agora aprecio o assunto, porque acabei aprendendo a mim mesmo o que realmente significa toda a terminologia. Peço desculpas por não ter sido exatamente o que você pediu, mas, como você está dando uma aula dessas, achei que esse seria um conselho útil.


11
Não tenho certeza se concordo - pelo menos não na maioria / em todos os casos. Para alguns, o entendimento conceitual pode, como você sugere, preceder a aplicação a exemplos específicos, mas para outros alunos, o entendimento conceitual (especialmente para tópicos complicados) pode ocorrer apenas através do uso de um exemplo particularmente esclarecedor.
jsakaluk

Quando eu era estudante, geralmente não tinha muita dificuldade em ler matemática de pós-graduação e resolver os problemas lá. Eu sabia o que estava fazendo e o que tinha que fazer. A teoria da probabilidade, ou estatística, é "mais fácil" do que os assuntos que eu estava aprendendo. Mas eu não tinha ideia do que estava fazendo ou por que tinha que fazer. Os livros em si não me ajudaram. Depois de lê-los, eu realmente não entendi o vocabulário. Claro, eu posso fazer os cálculos, mas no final do dia, eu apenas vi isso como um assunto vazio. Se eu tivesse essa confusão, al fortiorti, os alunos não-matemáticos também.
Nicolas Bourbaki

5
Eu me pergunto se isso pode ser um conselho mais útil para ensinar provavelmente a alunos muito brilhantes em um grau de matemática pura do que para ensinar estatística aplicada a alunos de ciências da computação.
Silverfish 28/03

@ Silverfish Não sei se meu conselho é aplicável apenas a estudantes de matemática. Pode-se desenvolver a linguagem da teoria da medida e mostrar como a probabilidade é expressa nela, sem entrar na teoria. Isso realmente não é diferente do cálculo básico. A maioria dos livros pelo menos define seus termos, mas eles não entram na teoria deles. Se os estudantes entenderem que a estatística é o problema inverso da probabilidade e que, por exemplo, "nos importamos" com a média porque ela se aproxima do valor esperado de uma variável aleatória, eles podem apreciá-la muito mais.
Nicolas Bourbaki
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.