Fazendo estatísticas corretas em um ambiente de trabalho?


20

Não tenho certeza de onde essa pergunta pertence: Validação cruzada ou Local de trabalho. Mas minha pergunta está vagamente relacionada à estatística.

Esta questão (ou acho que perguntas) surgiu durante o meu trabalho como "estagiário de ciência de dados". Eu estava construindo esse modelo de regressão linear e examinando o gráfico residual. Vi sinais claros de heterocedasticidade. Lembro que a heterocedasticidade distorce muitas estatísticas de teste, como intervalo de confiança e teste t. Então, usei o quadrado mínimo ponderado, seguindo o que aprendi na faculdade. Meu gerente viu isso e me aconselhou a não fazer isso porque "eu estava complicando as coisas", o que não era uma razão muito convincente para mim.

Outro exemplo seria "remover uma variável explicativa, pois seu valor-p é insignificante". Sendo assim, esse conselho simplesmente não faz sentido do ponto de vista lógico. De acordo com o que aprendi, o valor p insignificante pode ser devido a diferentes razões: chance, usar o modelo errado, violar as premissas etc.

Outro exemplo é que usei a validação cruzada com dobras k para avaliar meu modelo. De acordo com o resultado, o é bem melhor que o . Mas temos um mais baixo para o modelo 1, e o motivo tem algo a ver com a interceptação . Meu supervisor, no entanto, parece preferir o modelo 2 porque possui mais alto . Suas razões (como são robustas, ou validação cruzada é uma abordagem de aprendizado de máquina, não uma abordagem estatística) simplesmente não parecem convincentes o suficiente para mudar de idéia. C V m o d e l 2 R 2CVmodeeu1CVmodeeu2R2R 2R2R2

Como alguém que acabou de se formar na faculdade, estou muito confuso. Sou muito apaixonado por aplicar estatísticas corretas para resolver problemas do mundo real, mas não sei qual das seguintes afirmações é verdadeira:

  1. As estatísticas que aprendi sozinho estão erradas, por isso estou cometendo erros.
  2. Há uma enorme diferença entre estatísticas teóricas e modelos de construção nas empresas. E embora a teoria estatística esteja certa, as pessoas simplesmente não a seguem.
  3. O gerente não está usando as estatísticas corretamente.

Atualização em 17/04/2017: Decidi fazer um doutorado. nas estatísticas. Obrigado a todos pela sua resposta.


1
Relacionados à sua pergunta, estão os comentários (especialmente os que estão no final) abaixo desta resposta: stats.stackexchange.com/questions/229193/…

Essa discussão também pode ser relevante . Na prática, às vezes você pode usar modelos nos quais seus dados violam algumas suposições necessárias (por exemplo, Naive Bayes em variáveis ​​dependentes) e ainda apresentam resultados interessantes. Mas você deve ter muito cuidado com as conclusões que tira, e é aí que o principal problema é: a maioria das pessoas simplesmente não se importa com o significado de seus resultados, desde que você obtenha resultados. Publicar ou perecer ...
gaborous

1
As respostas "você está certo e ele está errado" provavelmente estão certas e se aplicam ao seu caso. De qualquer forma, cuidado com o fato de que às vezes a resposta pode ser "ele está errado, mas seu caminho errado funciona para seus propósitos - talvez funcione ainda melhor do que o certo para seus propósitos não estatísticos de administrar negócios". Penso que isso acontece frequentemente com todo o tipo de conhecimento científico, não apenas com estatísticas. Talvez no SE Workplace eles possam dar exemplos não estatísticos.
Pere

3
@Aksakal: Pelo que o OP descreve estatisticamente, ele provavelmente está correto. Sua anedota pessoal, é apenas uma anedota. Posso contestar dizendo que mudei para um trabalho em que o teste A / B seria feito com apenas 30 amostras; mostrar cálculos básicos de energia mudou toda a mentalidade das equipes sobre tamanhos de amostra e tomada de decisão. Voltando à pergunta do OP, concordo que o que está descrito não significa que o supervisor do OP fez uma ligação errada. Os fluxos de trabalho de negócios têm uma inércia específica associada a eles e o "
novato

1
@ usεr11852, meu comentário foi retórico :) mas tem um ponto, eu penso: para alguém que é novo no campo, é mais seguro supor que um chefe saiba melhor. com a experiência, ele pode relaxar essa suposição, talvez dar mais peso à sua própria opinião e menos ao chefe. Para um estagiário, o peso por sua própria opinião deve estar próximo de ZERO.
Aksakal

Respostas:


12

p

Acho que a única coisa a fazer, quando confrontada com esse tipo de situação, é explicar cuidadosamente o que há de errado na prática mal-intencionada, com um ou dois exemplos.


3
Obrigado pela resposta. Eu acho que uma "pergunta do próximo passo" é: existe algum trabalho lá fora que realmente corrige as estatísticas? Eu entendo que a ciência de dados é muito popular hoje em dia, mas de alguma forma eu tenho essa impressão de que muitos "cientistas de dados" realmente não me importo em fazer estatísticas corretas ...
3x89g2

1
@Misakov Eu acho que realmente depende da pessoa ou organização. Mas palavras-chave como "ciência de dados", "análise" e "inteligência de negócios" são bandeiras vermelhas. E não esqueça que, em uma entrevista de emprego, você também está entrevistando eles. Isso não apenas faz você parecer bom fazer perguntas detalhadas sobre como as coisas são feitas; permite que você veja o quão sério eles são sobre a análise de dados.
Kodiologist

@Misakov Você provavelmente precisaria entrar na academia se realmente quiser fazer estatísticas corretas. A grande maioria (veja minha resposta acima) do uso industrial estará errada.
Mooks

R2

1
@ usεr11852 Um bom gerente (ou seja, sem cabelos pontudos) adiará para os funcionários quando souberem melhor do que ele. "Dado que a empresa ainda existe, as decisões do gerente não são tão erradas " - A corrida não é rápida.
Kodiologist

11

Kodiologist está certo - você está certo, ele está errado. No entanto, infelizmente, esse é um problema de local ainda mais comum do que o que você está encontrando. Você está realmente em um setor que está se saindo relativamente bem.

meuman+3σ

Agora, além do fato de que esse intervalo de confiança não está dizendo a eles o que eles realmente precisam (eles precisam de um intervalo de tolerância para isso), isso é feito às cegas em parâmetros que estão pairando perto de algum valor máximo ou mínimo (mas onde o intervalo venceu ' realmente exceder esses valores). Como o Excel calcula o que eles precisam (sim, eu disse o Excel), eles definem suas especificações de acordo com isso, apesar do fato de o parâmetro não estar nem perto de ser normalmente distribuído. Essas pessoas aprenderam estatísticas básicas, mas não gráficos qq ou similares. Um dos maiores problemas é que as estatísticas fornecerão um número, mesmo quando usadas de forma inadequada - para que a maioria das pessoas não saiba quando o fez.

Em outras palavras, as especificações da grande maioria dos produtos, na grande maioria das indústrias, são absurdas.

Um dos piores exemplos que tenho de pessoas que seguem cegamente as estatísticas, sem entender, é o uso do Cpk na indústria automotiva. Uma empresa passou cerca de um ano discutindo sobre um produto com seu fornecedor, porque achou que o fornecedor poderia controlar seu produto a um nível que simplesmente não era possível. Eles estavam definindo apenas uma especificação máxima (sem mínimo) em um parâmetro e usaram o Cpk para justificar sua alegação - até que foi apontado que seus cálculos (quando usados ​​para definir um nível mínimo teórico) não queriam que não tivessem verificado ) implicava um valor negativo maciço. Isso, em um parâmetro que nunca poderia ir abaixo de 0. Cpk assume normal, o processo não forneceu dados próximos nem normais. Demorou muito tempo para que isso acontecesse. Todo esse desperdício de tempo e dinheiro porque as pessoas não não entendo o que eles estavam calculando - e poderia ter sido muito pior se não tivesse sido notado. Isso pode ser um fator que contribui para o porquê de recalls regulares na indústria automotiva!

Eu próprio sou proveniente de ciências e, francamente, o ensino de estatística em ciências e engenharia é chocantemente insuficiente. Eu nunca tinha ouvido falar da maioria do que preciso usar agora - tudo foi autodidata e existem (em comparação com um estatístico adequado) lacunas enormes em meu conhecimento até agora. Por esse motivo, não invejo as pessoas que usam mal as estatísticas (provavelmente ainda o faço regularmente), é uma má educação.

Então, voltando à sua pergunta original, não é realmente fácil. Concordo com a recomendação do Kodiologist de tentar explicar gentilmente essas coisas para que as estatísticas corretas sejam usadas. Mas eu acrescentaria uma advertência extra a isso e também o aconselharia a escolher suas batalhas com sabedoria, para o bem de sua carreira.

É lamentável, mas é fato que você não conseguirá que todos façam as melhores estatísticas todas as vezes. Escolha corrigi-los quando realmente for importante para a conclusão geral final (o que às vezes significa fazer as coisas de duas maneiras diferentes para verificar). Há momentos (por exemplo, o exemplo do seu modelo 1,2) em que o uso da maneira "errada" pode levar às mesmas conclusões. Evite corrigir muitas pessoas com muita frequência.

Sei que isso é intelectualmente frustrante e o mundo deve funcionar de maneira diferente - infelizmente não. Até certo ponto, você terá que aprender a julgar suas batalhas com base nas personalidades individuais de seus colegas. Seu objetivo (de carreira) é ser o especialista para quem eles procuram quando realmente precisam de ajuda, não a pessoa exigente que sempre tenta corrigi-los. E, de fato, se você se tornar essa pessoa, é provavelmente onde terá mais sucesso em conseguir que as pessoas escutem e façam as coisas da maneira certa. Boa sorte.


O Excel é possivelmente o software de análise de dados mais utilizado. Não há necessidade do comentário " sim, eu disse! ". A menos que alguém não tenha saído da academia (e talvez grande farmacêutico), ele não se incomodaria com sua afirmação original. (Resposta agradável, +1)
usεr11852 diz Reinstate Monic

1
É o mais amplamente usado, e acho que destaca o meu ponto original. O Excel tem enormes deficiências na análise de dados. Se o que você está fazendo está sendo feito no Excel, você realmente não pode chamá-lo de análise de dados - a menos que esteja inserindo manualmente todos os cálculos. Nada contra o Excel como uma planilha, mas é uma ferramenta rudimentar de análise de dados, na melhor das hipóteses. Mas as pessoas não sabem melhor, porque não são ensinadas melhor. Não tenho experiência em estatística, mas tive sorte de ter me mencionado R por fazer gráficos melhores - e isso, coincidentemente, me levou a melhores estatísticas.
Mooks

"Eu concordo com a recomendação do Kodiologist de tentar explicar gentilmente essas coisas para que as estatísticas corretas sejam usadas". Eu quero ser testemunha. Um estagiário explicando ao seu empregador como fazer negócios.
Aksakal

1
Isso ajudará, verifique # 9. É um conselho comum que aparece nesse tipo de lista o tempo todo. Primeiros 100 dias no trabalho: não sugira mudar as coisas, descubra primeiro por que as pessoas estão fazendo as coisas do jeito que estão fazendo, muitas vezes há um motivo válido. Você vai se fazer de bobo, e eu já vi isso acontecendo com novos caras várias vezes. Apenas cale a boca e observar por alguns meses
Aksakal

@ Akksakal O que você disse definitivamente faz sentido. Estou agindo um pouco "ousado" na minha situação, principalmente porque sou estagiária e sei que vou embora muito em breve.
3x89g2 08/09/16

3

O que é descrito parece uma experiência um tanto ruim. No entanto, não deve ser algo que faça com que se questione imediatamente sua própria formação educacional nem o julgamento estatístico de seu supervisor / gerente.

R2trabalho, ao invés do comportamento assintótico em algum lugar no futuro, não significa muito. As pessoas relutam em aceitá-lo; por que gastar energia para mudar quando tudo está (um pouco) funcionando? Seu gerente não está necessariamente errado da perspectiva dos negócios. Ele é responsável pelas decisões estatísticas e de negócios do seu departamento; essas decisões nem sempre coincidem necessariamente e provavelmente não coincidem com resultados a curto prazo (restrições de tempo são um fator muito importante na análise de dados do setor).

Meu conselho é manter suas armas (estatísticas), mas esteja aberto ao que as pessoas fazem, seja paciente com pessoas que possam se desapegar de novas práticas estatísticas e ofereça conselhos / opiniões quando solicitado , cresça uma pele mais espessa e aprenda com seu ambiente. Se você estiver fazendo as coisas certas, isso será mostrado lentamente, as pessoas desejarão sua opinião, porque reconhecerão que você pode oferecer soluções em que o fluxo de trabalho atual não. Finalmente, sim, claro, se depois de um período de tempo razoável (pelo menos alguns meses) você sentir que está desvalorizado e desrespeitado, apenas siga em frente.

Escusado será dizer que agora você está no setor e não pode relaxar e acha que não precisa aprimorar sua educação em estatística. Modelagem preditiva, estratégias de regressão, algoritmos de agrupamento continuam evoluindo. Por exemplo, o uso da regressão gaussiana de processos em um ambiente industrial estava próximo da ficção científica há 10 anos; agora ele pode ser visto quase como uma coisa de prateleira para tentar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.