Que teorias todo estatístico deve saber?

30

Estou pensando nisso de uma perspectiva de requisitos mínimos muito básica. Quais são as principais teorias que um estatístico da indústria (não acadêmico) deve conhecer, entender e utilizar regularmente?

Um grande problema que vem à mente é a lei dos grandes números . Quais são os mais essenciais para aplicar a teoria estatística à análise de dados?

theory careers law-of-large-numbers

— bnjmn
fonte

41

Francamente, não acho que a lei de grandes números tenha um papel enorme na indústria. É útil entender as justificativas assintóticas dos procedimentos comuns, como estimativas e testes de máxima verossimilhança (incluindo GLMs onipresentes e regressão logística, em particular), o bootstrap, mas essas são questões distributivas, em vez de probabilidade de encontrar problemas de amostra ruins .

Além dos tópicos já mencionados (GLM, inferência, autoinicialização), o modelo estatístico mais comum é a regressão linear; portanto, é necessário um entendimento completo do modelo linear. Você nunca pode executar o ANOVA em sua vida no setor, mas se não o entender, não deve ser chamado de estatístico.

Existem diferentes tipos de indústrias. Na indústria farmacêutica, você não pode ganhar a vida sem ensaios randomizados e regressão logística. Nas estatísticas da pesquisa, você não pode ganhar a vida sem o estimador de Horvitz-Thompson e os ajustes sem resposta. Nas estatísticas relacionadas à ciência da computação, você não pode ganhar a vida sem o aprendizado estatístico e a mineração de dados. Nos grupos de reflexão sobre políticas públicas (e, cada vez mais, estatísticas da educação), você não pode ganhar a vida sem estimadores de causalidade e efeito do tratamento (que, cada vez mais, envolvem ensaios randomizados). Na pesquisa de marketing, você precisa ter uma mistura de antecedentes econômicos com a teoria da medida psicométrica (e não pode aprender nenhuma delas em ofertas típicas do departamento de estatística). A estatística industrial opera com seus próprios paradigmas peculiares de sigma seis, que são remotamente conectados às estatísticas convencionais; uma ligação mais forte pode ser encontrada no projeto do material dos experimentos. O material de Wall Street seria econometria financeira, até o cálculo estocástico. Essas são habilidades MUITO díspares, e o termo "indústria" é ainda mais mal definido do que "academia". Eu não acho que alguém possa afirmar conhecer mais de duas ou três das opções acima ao mesmo tempo.

As principais habilidades, no entanto, que seriam universalmente necessárias no "setor" (o que isso possa significar para você) seriam gerenciamento de tempo, gerenciamento de projetos e comunicação com clientes com menos conhecimento estatístico. Portanto, se você deseja se preparar para a colocação no setor, faça aulas na escola de negócios sobre esses tópicos.

ATUALIZAÇÃO: A postagem original foi escrita em fevereiro de 2012; atualmente (março de 2014), você provavelmente deveria se chamar "cientista de dados" em vez de "estatístico" para encontrar um emprego na indústria ... e aprender melhor alguns Hadoop a seguir com essa autoproclamação.

— StasK
fonte

11

Ótima resposta. Obrigado por destacar algumas das grandes diferenças entre estatísticos na indústria. Isso ajuda a motivar minha pergunta, porque acredito que muitas pessoas têm uma idéia diferente do que um estatístico é / faz. Acho que estava tentando descobrir onde todos eles se cruzam a partir de um entendimento básico. Além disso, eu realmente aprecio o seu último parágrafo sobre tópicos de negócios e como eles são essenciais. Ótimos pontos, mas eu ainda gostaria de ver se alguém pode adicionar à conversa antes de aceitar.

— bnjmn

Estou intrigado com esses "paradigmas peculiares do Seis Sigma", "remotamente conectados à estatística convencional" com a qual você diz que a estatística industrial opera. Parece-me inteiramente ortodoxo, deixando de lado as diferenças terminológicas encontradas entre todos esses subcampos.

— Scortchi - Restabelece Monica

4

@ Scortchi, não consegui superar essas diferenças terminológicas, francamente. Sei também que as aproximações normais estão perto de ser inútil nas caudas, por isso, a probabilidade 6 sigma pode ser desligado por um factor de 100 ou 1000.

10^{- 9}

$10^{-9}$

— Stask

É justo: eu teria dito análises de sistemas de medição (concordância entre avaliadores, estudos de reprodutibilidade e repetibilidade de medidores), controle estatístico de processos, análise de confiabilidade (também conhecida como análise de sobrevivência) e projetos fatoriais de design experimental ((fracionário), metodologia de superfície de resposta ) eram características das estatísticas industriais.

— Scortchi - Restabelece Monica

12

Eu acho que um bom entendimento das questões relacionadas à troca de viés e variância . A maioria dos estatísticos acabará, em algum momento, analisando um conjunto de dados pequeno o suficiente para que a variação de um estimador ou os parâmetros do modelo sejam suficientemente altos para que o viés seja uma consideração secundária.

— Dikran Marsupial
fonte

11

Para apontar o super óbvio:

Teorema do limite central

pois permite que os profissionais aproximem os valores de em muitas situações em que é impossível obter valores exatos de . Na mesma linha, qualquer profissional de sucesso estaria bem servido para familiarizar-se, em geral, com $p$ $p$

Bootstrapping

— Macro
fonte

8

Eu não diria que isso é muito semelhante a algo como a lei dos grandes números ou o teorema do limite central, mas como fazer inferências sobre causalidade é frequentemente central, entender o trabalho de Judea Pearl sobre o uso de gráficos estruturados para modelar causalidade é algo que as pessoas deveriam conhecer. com. Ele fornece uma maneira de entender por que os estudos experimentais e observacionais diferem com relação às inferências causais que eles oferecem e oferece maneiras de lidar com dados observacionais. Para uma boa visão geral, seu livro está aqui .

— - Reinstate Monica
fonte

2

Há também a estrutura contrafactual de Rubin; também existem modelagem de equações estruturais e técnicas de variáveis instrumentais econométricas ... algumas das descritas na Econometria Principalmente Inofensiva, que é um dos melhores livros de estatística escritos por não estatísticos.

— StasK

7

Uma sólida compreensão do problema substantivo a ser tratado é tão importante quanto qualquer abordagem estatística específica. Um bom cientista do setor tem mais probabilidade do que um estatístico sem esse conhecimento de encontrar uma solução razoável para o seu problema. Um estatístico com conhecimento substantivo pode ajudar.

— Brett
fonte

6

O Método Delta, como calcular a variação de estatísticas bizarras e encontrar sua eficiência relativa assintótica, para recomendar alterações de variável e explicar os aumentos de eficiência "estimando a coisa certa". Em conjunto com isso, a desigualdade de Jensen para entender GLMs e tipos estranhos de preconceitos que surgem em transformações como as anteriores. E, agora que o viés e a variação são mencionados, o conceito de trade-off e MSE como uma medida objetiva da precisão preditiva.

— AdamO
fonte

6

Na minha opinião, a inferência estatística é mais importante para um praticante. A inferência possui duas partes: 1) Estimativa e 2) Teste de hipóteses. O teste de hipóteses é importante. Como na estimativa, na maioria das vezes, é um procedimento único, a estimativa de probabilidade máxima é seguida e é o pacote estatístico mais disponível (portanto, não há confusão).

As perguntas frequentes dos profissionais envolvem testes significativos de análise de diferença ou causalidade. Testes de hipóteses importantes podem ser encontrados neste link .

É necessário conhecer os modelos lineares, o GLM ou, em geral, a modelagem estatística para a interpretação da causa. Suponho que o futuro da análise de dados inclua inferência bayesiana.

— vinux
fonte

0

Inferência casual é obrigação. E como lidar com o problema fundamental, você não pode voltar no tempo e não dar tratamento a alguém. Leia artigos sobre Rubin, Fisher, o fundador do moderno estudante de estatística.) .... O que aprender a resolver esse problema, a randomização adequada e como a Lei de grandes números diz que as coisas são adequadamente randomizadas, Teste de hipóteses, Resultados potenciais (vale contra a hipótese de hetroscastisty) e é ótimo com falta), correspondência (ótimo para falta, mas os resultados potenciais são melhores porque é mais generalizado, quero dizer por que aprender uma tonelada de coisas complicadas quando você só pode aprender uma coisa complicada), Bootstrap, estatísticas bayesianas, é claro (regressão bayesiana , regressão bayesiana ingênua, fatores bayesianos) e alternativas não papmétricas.

Normalmente, na prática, basta seguir estas etapas gerais,

Em relação a um comentário anterior, você deve primeiro começar genralmente com uma ANOVA (efeitos aleatórios ou efeitos fixos e transformar tipos contínuos em compartimentos) e depois usar uma regressão (que, se você transformar e alterar, às vezes pode ser tão boa quanto uma ANOVA, mas nunca vencê-la) para ver quais tratamentos específicos são significativos (em vez de fazer o teste t múltiplo e usar alguma correção como Holm methid), use uma regressão.

Nos casos em que você precisa prever as coisas, use a regressão bayasiana.

A falta de mais de 5% usa resultados potenciais

Outro ramo da análise de dados é o aprendizado de máquina supervisionado, que deve ser mencionado

— Kheagan Eckley
fonte