Intuição estatística / sentido dos dados


20

Sou estudante do segundo ano do curso de Matemática e converso bastante com um de meus professores sobre a diferença entre habilidade matemática e estatística. Uma das principais diferenças que ele levantou foi o "senso de dados", que ele explicou como uma combinação de habilidade técnica enquanto operava dentro de um conjunto do que chamarei informalmente de "restrições de bom senso", isto é, sem perder de vista a realidade do problema em meio a muita teoria. Este é um exemplo do que eu estava falando, que apareceu no blog de Gowers:

Em várias partes do Reino Unido, a polícia reuniu estatísticas sobre onde ocorreram os acidentes de trânsito, identificou pontos negros de acidentes, colocou câmeras de velocidade ali e reuniu mais estatísticas. Havia uma tendência definida para o número de acidentes nesses pontos negros diminuir após a instalação dos radares. Isso mostra conclusivamente que as câmeras de velocidade melhoram a segurança nas estradas?

A mesma pessoa que defendeu a estratégia aleatória no jogo da negociação já sabia basicamente a resposta para essa pergunta. Ele disse que não, pois se você escolher os casos extremos, espera que eles sejam menos extremos se executar o experimento novamente. Decidi seguir rapidamente com essa pergunta, já que não havia muito mais a dizer. Mas contei às pessoas sobre um plano que eu tinha, que era fazer um experimento falso de telepatia. Eu os faria adivinhar os resultados de 20 lançamentos de moedas, que tentaria transmitir a eles telepaticamente. Eu escolhia os três melhores e os piores e jogava as moedas novamente, desta vez pedindo aos melhores para me ajudarem a transmitir as respostas para os piores. As pessoas podiam ver facilmente que as performances deveriam melhorar e que isso não teria nada a ver com telepatia.

O que estou perguntando é como aprender mais sobre esse "sentido dos dados" , através de quaisquer publicações sobre o assunto, se elas existirem, ou através do que outros usuários descobriram ser útil no desenvolvimento dessa habilidade. Sinto muito se esta pergunta precisa ser esclarecida; Em caso afirmativo, envie suas perguntas! Obrigado.


Como mentir com as estatísticas é um ótimo lugar para começar.
MånsT

The Drunkard's Walk também coloca as estatísticas em uma estrutura acessível e de bom senso.
Marcus Morrisey

Respostas:


10

Eu diria primeiro que não devemos menosprezar a matemática. É uma ferramenta importante no desenvolvimento da teoria estatística e os métodos estatísticos são justificados pela teoria. A teoria também diz o que está errado e quais técnicas podem ser melhores (por exemplo, mais eficientes). Então, acho que o conhecimento e o pensamento matemáticos são importantes (quase necessários) para ser um bom estatístico. Mas definitivamente não é suficiente. Eu acho que os livros mencionados nos comentários são bons. Deixe-me dar alguns outros.

Compreendendo os dados: um guia prático para análise exploratória de dados e mineração de dados

Compreendendo os dados II: Um guia prático para visualização de dados, métodos avançados de mineração de dados e aplicativos

Pensamento Estatístico: Melhorando o Desempenho dos Negócios

O papel da estatística nos negócios e na indústria

Uma carreira em estatística: além dos números

Os livros de Hahn e Snee são particularmente valiosos e interessantes, porque são estatísticos industriais famosos, com habilidades matemáticas e experiência prática.


7
Obrigado pelos links e comentários. Eu acho que geralmente as respostas podem ser melhoradas usando a [manuscript title](uri) marcação de link . Depois de um longo dia, acho que encontrar respostas com hiperlinks longos pode ser inconscientemente chocante e, infelizmente, pode influenciar o leitor a encontrar uma resposta boa.
Jtetzel #

@ jthetzel Posso ver por que é melhor ter um nome substituindo o URL em um link. Quando tiver tempo, aprenderei a fazê-lo. Eu sei que é fácil. Mas eu dei três ou quatro links. leva quase tempo para clicar no link e ver o que é. então eu realmente não entendo por que tantos membros da comunidade fazem uma grande diferença.
Michael R. Chernick

6

No exemplo que você menciona, a questão central é a inferência causal. Um bom ponto de partida para a inferência causal é esta revisão de livro triplo Andrew Gelman e os livros revisados ​​nela. Além de aprender sobre inferência causal, você deve aprender sobre o valor da análise, descrição e previsão de dados exploratórios.

Aprendi uma quantidade incrível ao ouvir cientistas sociais criticarem as pesquisas uns dos outros em trabalhos publicados, blogs , seminários e em conversas pessoais - há muitas maneiras de aprender. Siga este site e o blog de Andrew Gelman.

Obviamente, se você deseja entender os dados, precisa praticar com dados reais. Existem habilidades gerais de detecção de dados, mas também há detecção de dados que é específica para uma área do problema ou, mais especificamente, detecção de dados específica para um conjunto de dados específico.


5

Um recurso agradável e gratuito é o Chance News Wiki . Há muitos exemplos extraídos de exemplos reais, juntamente com a discussão de pontos bons e ruins de como as pessoas interpretam dados e estatísticas. Muitas vezes, também existem perguntas para discussão (parte da motivação da visão é dar aos professores de estatística exemplos do mundo real para discutir com os alunos).


5

+1 para uma ótima pergunta! (E +1 para todos os respondentes até agora.)

Eu acho que existe muito o sentido dos dados, mas não acho que exista algo místico nisso. A analogia que eu usaria é dirigir. Quando você está dirigindo pela estrada, você apenas sabe o que está acontecendo com os outros carros. Por exemplo, você sabe que o cara à sua frente, ao lado, está procurando a placa de rua onde ele deveria virar, mesmo que ele não esteja usando o sinal de mudança de direção. Você identifica automaticamente o motorista lento e cauteloso demais e antecipa como eles reagirão em diferentes situações. Você pode identificar o adolescente que apenas quer correr o mais rápido que puder. Você tem um senso baseado no reconhecimento do que todos os carros estão fazendo. É exatamente o mesmo que o sentido dos dados. Vem da experiência, muitosde experiência. Se você conhece o suficiente da teoria, basta começar a jogar com conjuntos de dados reais. Você pode estar interessado em explorar um site como o DASL . Uma condição, porém, é que você não deve apenas ter experiência em carregar um conjunto de dados, executar um teste e obter um valor-p. Você precisará explorar os dados, provavelmente plotar diferentes maneiras, ajustar alguns modelos e pensar no que está acontecendo. (Observe que o EDA tem sido um tópico comum aqui.)

Um fato possivelmente não óbvio sobre esse processo é que o sentido dos dados pode ser localizado em uma determinada área tópica. Por exemplo, você pode ter muita experiência trabalhando com dados experimentais e ANOVAs, mas não necessariamente ter uma boa noção do que está acontecendo quando você olha dados de séries temporais ou dados de sobrevivência.

Deixe-me acrescentar mais uma estratégia que achei extremamente útil: acho que vale a pena aprender um pouco de programação (estatística). Você não precisa ser muito bom nisso (sou conhecido por escrever código "comicamente ineficiente"). No entanto, depois que você pode escrever algum código processual básico (digamos R), você pode simular . Seria difícil para mim enfatizar demais o quanto a capacidade de realizar simulações muito simples pode ajudar. Uma coisa para a qual você pode usar isso é que, no decorrer de seus estudos, você lê sobre alguma propriedade que pode ser explorada. Por exemplo, se você souber (abstratamente) que é difícil determinar empiricamente se um modelo de logit ou probit é melhor para um conjunto de dados, você pode codificar simulações dissoe brinque com eles para entender melhor a ideia. Isso também fornecerá a você experiência, mas de um tipo ligeiramente diferente, e também o ajudará a desenvolver seu senso de dados.


+1 por enfatizar o valor de aprender com simulações.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.