O que significa "Os cientistas se levantam contra a significância estatística"? (Comentário na natureza)


61

O título do Comentário na Nature Scientists se defronta com a significância estatística começa com:

Valentin Amrhein, Sander Greenland, Blake McShane e mais de 800 signatários pedem o fim de reivindicações sensatas e a rejeição de possíveis efeitos cruciais.

e depois contém instruções como:

Novamente, não estamos defendendo a proibição de valores de P, intervalos de confiança ou outras medidas estatísticas - apenas que não devemos tratá-los categoricamente. Isso inclui a dicotomização como estatisticamente significativa ou não, bem como a categorização com base em outras medidas estatísticas, como os fatores de Bayes.

Acho que entendo que a imagem abaixo não diz que os dois estudos discordam porque um "exclui" nenhum efeito enquanto o outro não. Mas o artigo parece ser muito mais profundo do que eu posso entender.

No final, parece haver um resumo em quatro pontos. É possível resumir isso em termos ainda mais simples para aqueles que lêem estatísticas em vez de escrevê-las?

Ao falar sobre intervalos de compatibilidade, lembre-se de quatro coisas.

  • Primeiro, apenas porque o intervalo fornece os valores mais compatíveis com os dados, dadas as suposições, isso não significa que valores fora dele sejam incompatíveis; eles são apenas menos compatíveis ...

  • Segundo, nem todos os valores internos são igualmente compatíveis com os dados, dadas as suposições ...

  • Terceiro, como o limiar de 0,05 do qual veio, os 95% padrão usados ​​para calcular intervalos são em si uma convenção arbitrária ...

  • Por último, e mais importante de tudo, seja humilde: as avaliações de compatibilidade dependem da correção das suposições estatísticas usadas para calcular o intervalo ...


Natureza: Os cientistas se levantam contra a significância estatística


13
Basicamente, eles querem preencher trabalhos de pesquisa com ainda mais falsos positivos!
David

12
Veja a discussão no blog de Gelman: statmodeling.stat.columbia.edu/2019/03/20/… . Obviamente, o artigo levanta alguns pontos válidos, mas veja os comentários levantados por Ioannidis contra este artigo (e também, separadamente, contra o aspecto "petição"), conforme citado por Gelman.
ameba diz Restabelecer Monica

3
Este não é um conceito novo, no entanto. A metanálise é importante há quase 50 anos, e a Cochrane faz metanálises de estudos médicos / de saúde (onde é mais fácil padronizar objetivos e resultados) nos últimos 25 anos.
Graham

4
Fundamentalmente, o problema está tentando reduzir a "incerteza", que é um problema multidimensional para um único número.
MaxW 22/03

4
Basicamente, se as pessoas declararem "não encontramos evidências de uma associação entre X e Y" em vez de "X e Y não estão relacionados" ao encontrar esse artigo provavelmente não existiria. p>α
Firebug

Respostas:


65

Os três primeiros pontos, pelo que sei, são uma variação de um único argumento.

Os cientistas geralmente tratam medições de incerteza ( , por exemplo) como distribuições de probabilidade parecidas com esta:12±1

distribuição de probabilidade uniforme

Quando, na verdade, eles são muito mais propensos a olhar como este : insira a descrição da imagem aqui

Como ex-químico, posso confirmar que muitos cientistas com formação não matemática (principalmente químicos não físicos e biólogos) não entendem realmente como a incerteza (ou erro, como eles chamam) deve funcionar. Eles se lembram de um período na graduação em física em que talvez tivessem que usá-los, possivelmente até tendo que calcular um erro composto por várias medidas diferentes, mas eles nunca os entenderam realmente . Eu também era culpado disso, e presumi que todas as medições deviam estar dentro do intervalo . Apenas recentemente (e fora da academia), descobri que as medidas de erro geralmente se referem a um determinado desvio padrão, não a um limite absoluto.±

Então, para dividir os pontos numerados no artigo:

  1. As medidas fora do IC ainda têm uma chance de acontecer, porque a probabilidade real (provavelmente gaussiana) é diferente de zero lá (ou em qualquer outro lugar, apesar de se tornarem muito pequenas quando você fica longe). Se os valores após o realmente representam um sd, ainda existe uma chance de 32% de um ponto de dados ficar fora deles.±

  2. A distribuição não é uniforme (com tampo plano, como no primeiro gráfico), está com o pico. É mais provável que você obtenha um valor no meio do que nas bordas. É como jogar um monte de dados, em vez de um único dado.

  3. 95% é um ponto de corte arbitrário e coincide quase exatamente com dois desvios padrão.

  4. Este ponto é mais um comentário sobre honestidade acadêmica em geral. Percebi que, durante meu doutorado, a ciência não é uma força abstrata, são os esforços acumulados das pessoas que tentam fazer ciência. São pessoas que tentam descobrir coisas novas sobre o universo, mas ao mesmo tempo também tentam manter seus filhos alimentados e manter seus empregos, o que infelizmente nos tempos modernos significa que alguma forma de publicação ou perecer está em jogo. Na realidade, os cientistas dependem de descobertas verdadeiras e interessantes , porque resultados desinteressantes não resultam em publicações.

Limiares arbitrários como geralmente podem se autoperpetuar, especialmente entre aqueles que não entendem completamente as estatísticas e precisam apenas de um selo de aprovação / reprovação em seus resultados. Como tal, às vezes as pessoas falam meio que brincando sobre 'executar o teste novamente até você obter '. Pode ser muito tentador, especialmente se um doutorado / subsídio / emprego estiver aproveitando o resultado, para que esses resultados marginais sejam alterados até que o desejado na análise.p<0.05p<0.05p=0.0498

Tais práticas podem ser prejudiciais para a ciência como um todo, especialmente se for realizada amplamente, tudo em busca de um número que é aos olhos da natureza, sem sentido. Esta parte, na verdade, está exortando os cientistas a serem honestos sobre seus dados e trabalho, mesmo quando essa honestidade é prejudicial.


26
+1 para "... publicar ou perecer está em jogo. Na realidade, os cientistas dependem de descobertas verdadeiras e interessantes, porque resultados desinteressantes não resultam em publicações". Houve um artigo interessante publicado anos atrás, que fala sobre como essa "publicação ou perecer" leva à composição de erros / preconceitos em todo o meio acadêmico: Por que a maioria das descobertas de pesquisas publicadas é falsa (Ioannidis, 2005)
J. Taylor

4
Não concordo com "a incerteza real (provavelmente gaussiana) ..." - Gaussiana é outra simplificação excessiva. É um pouco mais justificado do que o modelo de limites rígidos, graças ao Teorema do Limite Central, mas a distribuição real geralmente é algo diferente ainda.
leftaroundabout

11
@leftaroundabout A distribuição real provavelmente ainda é diferente, mas, a menos que o valor seja fisicamente impossível, é provável que a probabilidade ainda seja matematicamente diferente de zero.
gerrit 21/03

3
@leftaroundabout dizendo que a incerteza é provavelmente gaussiana não é inerentemente uma simplificação. Ele descreve uma distribuição anterior, que é justificada pelo CLT como a melhor prévia na ausência de outros dados de suporte, mas expressando incerteza sobre a distribuição, o reconhecimento de que a distribuição poderia muito bem não ser gaussiana já está lá.
Será

7
@inisfree você está muito, muito enganado. Muitas disciplinas científicas (como química e biologia, como afirmei anteriormente) usam quase zero matemática, além da aritmética básica. De outra forma, existem cientistas brilhantes por aí que são quase analfabetos em matemática, e eu conheci alguns deles.
Ingolifs 22/03

19

Grande parte do artigo e da figura que você inclui fazem uma observação muito simples:

A falta de evidência para um efeito não é evidência de que ele não existe.

Por exemplo,

"Em nosso estudo, os ratos que receberam cianeto não morreram em taxas estatisticamente significativamente mais altas" não são evidências da alegação de que "o cianeto não tem efeito sobre a morte de ratos".

Suponha que damos a dois ratos uma dose de cianeto e um deles morra. No grupo controle de dois ratos, nenhum deles morre. Como o tamanho da amostra era muito pequeno, esse resultado não é estatisticamente significativo ( ). Portanto, esse experimento não mostra um efeito estatisticamente significativo do cianeto na vida útil do mouse. Devemos concluir que o cianeto não afeta os ratos? Obviamente não.p>0.05

Mas esse é o erro que os autores afirmam que os cientistas cometem rotineiramente.

Por exemplo, em sua figura, a linha vermelha pode surgir de um estudo com muito poucos ratos, enquanto a linha azul pode surgir exatamente do mesmo estudo, mas em muitos ratos.

Os autores sugerem que, em vez de usar tamanhos de efeito e valores de p, os cientistas descrevem o leque de possibilidades que são mais ou menos compatíveis com suas descobertas. Em nosso experimento com dois ratos, teríamos que escrever que nossas descobertas são compatíveis com o cianeto muito venenoso e com o fato de não ser venenoso. Em um experimento com 100 ratos, podemos encontrar um intervalo de confiança de fatalidade com uma estimativa pontual de[60%,70%]65%. Em seguida, devemos escrever que nossos resultados seriam mais compatíveis com a suposição de que essa dose mata 65% dos camundongos, mas nossos resultados também seriam compatíveis com porcentagens tão baixas quanto 60 ou altas como 70, e que nossos resultados seriam menos compatíveis com uma verdade fora desse intervalo. (Também devemos descrever as suposições estatísticas que fazemos para calcular esses números.)


4
Discordo da afirmação geral de que "ausência de evidência não é evidência de ausência". Os cálculos de potência permitem determinar a probabilidade de considerar significativo um efeito de um tamanho específico, considerando um tamanho de amostra específico. Os tamanhos de efeitos grandes requerem menos dados para considerá-los significativamente diferentes de zero, enquanto os efeitos pequenos exigem um tamanho de amostra maior. Se o seu estudo for desenvolvido adequadamente e você ainda não estiver vendo efeitos significativos, poderá concluir razoavelmente que o efeito não existe. Se você tiver dados suficientes, a não significância pode realmente indicar nenhum efeito.
Nuclear Wang

11
@NuclearWang True, mas apenas se a análise de energia for feita com antecedência e somente se for feita com suposições corretas e interpretações corretas (ou seja, seu poder é relevante apenas para a magnitude do tamanho do efeito que você prevê; "80% power "não significa que você tem 80% de probabilidade de detectar corretamente o efeito zero ). Além disso, na minha experiência, o uso de "não significativo" para significar "sem efeito" é frequentemente aplicado a resultados secundários ou eventos raros, os quais o estudo (apropriadamente) não é alimentado de maneira alguma. Finalmente, beta é tipicamente >> alfa.
Bryan Krause

9
@ NuclearWang, não acho que alguém esteja argumentando "a ausência de evidência NUNCA é evidência de ausência", acho que eles estão argumentando que não deve ser automaticamente interpretado como tal, e que esse é o erro que as pessoas cometem.
usul 21/03

É quase como se as pessoas não fossem treinadas em testes de equivalência ou algo assim.
Alexis

19

Vou tentar.

  1. O intervalo de confiança (que eles renomearam como intervalo de compatibilidade) mostra os valores do parâmetro que são mais compatíveis com os dados. Mas isso não significa que os valores fora do intervalo sejam absolutamente incompatíveis com os dados.
  2. Valores próximos ao meio do intervalo de confiança (compatibilidade) são mais compatíveis com os dados do que valores próximos ao final do intervalo.
  3. 95% é apenas uma convenção. Você pode calcular intervalos de 90% ou 99% ou qualquer% de intervalo.
  4. Os intervalos de confiança / compatibilidade são úteis apenas se o experimento foi realizado corretamente, se a análise foi realizada de acordo com um plano predefinido e os dados estão em conformidade com a suposição dos métodos de análise. Se você analisou mal os dados incorretos, o intervalo de compatibilidade não é significativo ou útil.

10

O grande XKCD fez esse desenho há pouco tempo, ilustrando o problema. Se os resultados com forem tratados de maneira simplista como prova de uma hipótese - e com muita freqüência são -, 1 em cada 20 hipóteses comprovadas será realmente falsa. Da mesma forma, se for considerado como desaprovador de hipóteses, 1 em 20 hipóteses verdadeiras serão erroneamente rejeitadas. Os valores-p não informam se uma hipótese é verdadeira ou falsa; eles informam se uma hipótese é provavelmente verdadeira ou falsa. Parece que o artigo mencionado está retrocedendo contra a interpretação ingênua muito comum.P>0.05P < 0,05P<0.05


8
(-1) Os valores de P não mostram se uma hipótese é provavelmente verdadeira ou falsa. Você precisa de uma distribuição prévia para isso. Veja este xkcd , por exemplo. O aceno problemático que leva a essa confusão é que, se tivermos antecedentes semelhantes para um grande número de hipóteses, o valor-p será proporcional à probabilidade de ser verdadeiro ou falso. Mas antes de ver qualquer dado, algumas hipóteses são muito mais prováveis ​​que outras!
Cliff AB

3
Embora esse efeito seja algo que não deva ser descartado, está longe de ser um ponto significativo do artigo referenciado.
RM

6

tl; dr - É fundamentalmente impossível provar que as coisas não estão relacionadas; as estatísticas só podem ser usadas para mostrar quando as coisas estão relacionadas. Apesar desse fato bem estabelecido, as pessoas freqüentemente interpretam mal a falta de significância estatística para implicar na falta de relacionamento.


Um bom método de criptografia deve gerar um texto cifrado que, até onde um invasor pode dizer, não possui nenhuma relação estatística com a mensagem protegida. Como se um invasor puder determinar algum tipo de relacionamento, poderá obter informações sobre suas mensagens protegidas apenas olhando os textos cifrados - que é uma Bad Thing TM .

No entanto, o texto cifrado e seu texto simples correspondente 100% se determinam. Portanto, mesmo que os melhores matemáticos do mundo não consigam encontrar um relacionamento significativo, por mais que tentem, obviamente ainda sabemos que o relacionamento não existe apenas, mas que é completa e totalmente determinístico. Esse determinismo pode existir mesmo quando sabemos que é impossível encontrar um relacionamento .

Apesar disso, ainda temos pessoas que farão coisas como:

  1. Escolha algum relacionamento que eles querem " refutar ".

  2. Faça alguns estudos inadequados para detectar o suposto relacionamento.

  3. Relate a falta de um relacionamento estatisticamente significativo.

  4. Torça isso em uma falta de relacionamento.

Isso leva a todos os tipos de " estudos científicos " que a mídia (falsamente) reportará como refutando a existência de algum relacionamento.

Se você deseja criar seu próprio estudo em torno disso, existem várias maneiras de fazê-lo:

  1. Pesquisa preguiçosa:
    a maneira mais fácil, de longe, é ser incrivelmente preguiçosa. É exatamente como na figura vinculada na pergunta: . Você pode facilmente obter o simplesmente com tamanhos de amostra pequenos, permitindo muito ruído e outras coisas preguiçosas. Na verdade, se você é tão preguiçoso para não coletar qualquer dado, então você já está pronto!

    'Non-significant' study(high P value)"

  2. Análise preguiçosa:
    Por alguma razão boba, algumas pessoas pensam que um coeficiente de correlação de Pearson de significa " sem correlação ". O que é verdade, em um sentido muito limitado. Mas, aqui estão alguns casos a serem observados: . Isto é, pode não haver uma relação " linear ", mas obviamente pode haver uma relação mais complexa. E não precisa ser um nível complexo de " criptografia ", mas sim " é realmente um pouco complicado " ou " existem duas correlações " ou o que seja.0

  3. Resposta preguiçosa:
    No espírito do exposto, vou parar por aqui. Para, você sabe, ser preguiçoso!

Mas, sério, o artigo resume bem em:

Sejamos claros sobre o que deve parar: nunca devemos concluir que 'não há diferença' ou 'não há associação' apenas porque um valor de P é maior que um limite como 0,05 ou, equivalentemente, porque um intervalo de confiança inclui zero.


+1 porque o que você escreve é ​​verdadeiro e instigante. No entanto, na minha humilde opinião, você pode provar que duas quantidades são razoavelmente correlacionadas sob certas suposições. Você deve começar primeiro, supondo uma certa distribuição sobre eles, mas isso pode se basear nas leis da física ou nas estatísticas (por exemplo, espera-se que a velocidade das moléculas de um gás em um recipiente seja gaussiana ou assim por diante)
ntg 22/03

3
@ntg Sim, é difícil saber como exprimir algumas dessas coisas, então deixei muito de fora. Quero dizer, a verdade geral é que não podemos provar que existe algum relacionamento, embora geralmente possamos demonstrar que um relacionamento específico não existe. De certa forma, não podemos estabelecer que duas séries de dados não sejam relacionadas, mas podemos estabelecer que elas não parecem estar relacionadas de maneira confiável por uma função linear simples.
Nat

11
-1 "tl; dr- É fundamentalmente impossível provar que as coisas não estão relacionadas": os testes de equivalência fornecem evidências de ausência de um efeito dentro de um tamanho de efeito arbitrário.
Alexis

2
@ Alexis Acho que você não entendeu o teste de equivalência; você pode usar o teste de equivalência para evidenciar a ausência de um determinado relacionamento, por exemplo, um relacionamento linear, mas não evidenciar a ausência de qualquer relacionamento.
Nat

11
A inferência estatística do @Alexis pode fornecer o máximo de evidências da ausência de um efeito maior que um tamanho de efeito específico no contexto de algum modelo . Talvez você esteja assumindo que o modelo sempre será conhecido?
Nat

4

Para uma introdução didática ao problema, Alex Reinhart escreveu um livro totalmente disponível online e editado na No Starch Press (com mais conteúdo): https://www.statisticsdonewrong.com

Ele explica a raiz do problema sem matemática sofisticada e possui capítulos específicos com exemplos de conjunto de dados simulados:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

No segundo link, um exemplo gráfico ilustra o problema do valor-p. O valor P é frequentemente usado como um indicador único de diferença estatística entre o conjunto de dados, mas claramente não é suficiente por si só.

Edite para obter uma resposta mais detalhada:

Em muitos casos, os estudos visam reproduzir um tipo preciso de dados, medições físicas (digamos o número de partículas em um acelerador durante um experimento específico) ou indicadores quantitativos (como o número de pacientes que desenvolvem sintomas específicos durante testes de drogas). Em qualquer uma dessas situações, muitos fatores podem interferir no processo de medição, como erro humano ou variações de sistemas (pessoas reagindo de maneira diferente ao mesmo medicamento). Essa é a razão pela qual os experimentos geralmente são realizados centenas de vezes, se possível, e os testes de drogas são realizados, idealmente, em grupos de milhares de pacientes.

O conjunto de dados é então reduzido aos seus valores mais simples usando estatísticas: médias, desvios padrão e assim por diante. O problema na comparação de modelos pela média é que os valores medidos são apenas indicadores dos valores reais e também estão mudando estatisticamente, dependendo do número e da precisão das medições individuais. Temos maneiras de adivinhar quais medidas provavelmente serão as mesmas e quais não, mas apenas com uma certa certeza. O limiar usual é dizer que, se tivermos menos de uma em vinte chances de estar errado ao dizer que dois valores são diferentes, os consideraremos "estatisticamente diferentes" (esse é o significado de ); caso contrário, não concluiremos.P<0.05

Isso leva a conclusões estranhas ilustradas no artigo da Nature, onde duas mesmas medidas dão os mesmos valores médios, mas as conclusões dos pesquisadores diferem devido ao tamanho da amostra. Isso e outras informações do vocabulário e hábitos estatísticos estão se tornando cada vez mais importantes nas ciências. Um outro lado do problema é que as pessoas tendem a esquecer que usam ferramentas estatísticas e concluem sobre o efeito sem a verificação adequada do poder estatístico de suas amostras.

Por outro lado, recentemente as ciências sociais e da vida estão passando por uma verdadeira crise de replicação devido ao fato de que muitos efeitos foram dados como garantidos por pessoas que não verificaram o poder estatístico adequado de estudos famosos (enquanto outros falsificaram os dados mas este é outro problema).


3
Embora não seja apenas um link, esta resposta tem todas as características marcantes de uma " resposta apenas ao link ". Para melhorar esta resposta, incorpore os pontos principais na própria resposta. Idealmente, sua resposta deve ser útil como resposta, mesmo que o conteúdo dos links desapareça.
RM

2
Sobre os valores de p e a falácia da taxa básica (mencionados no seu link), a Veritasium publicou este vídeo chamado armadilha bayesiana .
jjmontes 21/03

2
Desculpe, tentarei melhorar e desenvolver a resposta o mais rápido possível. Minha idéia também era fornecer material útil para o leitor curioso.
G.Clavier 22/03

11
@ G.Clavier e o novato em estatística auto-descrito e leitor curioso agradecem!
uhoh 22/03

11
@uhoh Fico feliz em lê-lo. :)
G.Clavier 23/03

4

Para mim, a parte mais importante foi:

... [Pedimos aos autores que discutam a estimativa pontual, mesmo quando eles têm um valor P grande ou um intervalo amplo, além de discutir os limites desse intervalo.

Em outras palavras: coloque uma ênfase maior na discussão de estimativas (intervalo de centro e confiança) e uma ênfase menor no "teste de hipótese nula".

Como isso funciona na prática? Muitas pesquisas se resumem a medir tamanhos de efeitos, por exemplo "Medimos uma taxa de risco de 1,20, com um IC de 95% variando de 0,97 a 1,33". Este é um resumo adequado de um estudo. Você pode ver imediatamente o tamanho do efeito mais provável e a incerteza da medição. Usando esse resumo, você pode comparar rapidamente este estudo com outros estudos semelhantes e, idealmente, combinar todas as descobertas em uma média ponderada.

Infelizmente, esses estudos são frequentemente resumidos como "Não encontramos um aumento estatisticamente significativo da taxa de risco". Esta é uma conclusão válida do estudo acima. Mas este não é um resumo adequado do estudo, porque você não pode comparar facilmente estudos usando esses tipos de resumos. Você não sabe qual estudo teve a medida mais precisa e não sabe como pode ser a descoberta de um meta-estudo. E você não percebe imediatamente quando os estudos afirmam "aumento não significativo da taxa de risco", tendo intervalos de confiança tão grandes que você pode esconder um elefante neles.


Isso depende da hipótese nula de alguém. Por exemplo, a rejeição de fornece evidência de uma ausência de efeito maior que um arbitrariamente pequeno . H0:|θ|ΔΔ
Alexis

11
Sim, mas por que se incomodar em discutir essa hipótese? Você pode apenas indicar o tamanho do efeito medido e discutir quais são as melhores / piores ramificações de casos. É assim que geralmente é feito na física, por exemplo, quando se mede a diferença de massa para carga entre próton e antipróton . Os autores poderiam ter optado por formular uma hipótese nula (talvez, para seguir seu exemplo, de que a diferença absoluta seja maior que alguns ) e continuar a testá-la, mas há pouco valor agregado nessa discussão. θ±δθΔ
Martin JH

3

É "significativo" que estatísticos , não apenas cientistas, estejam se levantando e objetando ao uso frouxo de "significância" e valores deA edição mais recente do The American Statistician é inteiramente dedicada a esse assunto. Veja especialmente o editorial principal de Wasserman, Schirm e Lazar. P


Obrigado pelo link! É um revelador; Eu não sabia que havia tanto pensamento e debate sobre isso.
uhoh 27/03

2

É fato que, por várias razões, os valores de p se tornaram um problema.

No entanto, apesar de suas fraquezas, eles têm vantagens importantes, como simplicidade e teoria intuitiva. Portanto, embora eu concorde com o Comentário na Natureza , acho que, em vez de abandonar completamente a significância estatística , é necessária uma solução mais equilibrada. Aqui estão algumas opções:

1. "Alteração do limite do valor P padrão para significância estatística de 0,05 para 0,005 para reivindicações de novas descobertas". Na minha opinião, Benjamin et al abordaram muito bem os argumentos mais convincentes contra a adoção de um padrão mais alto de evidência.

2. Adotando os valores p de segunda geração . Estas parecem ser uma solução razoável para a maioria dos problemas que afetam os valores p clássicos . Como Blume et al dizem aqui , os valores p de segunda geração podem ajudar "a melhorar o rigor, a reprodutibilidade e a transparência nas análises estatísticas".

3. Redefinir o valor-p como "uma medida quantitativa da certeza - um" índice de confiança "- de que uma relação ou alegação observada é verdadeira". Isso poderia ajudar a mudar o objetivo da análise, de alcançar significância e estimar adequadamente essa confiança.

É importante ressaltar que "os resultados que não atingem o limiar de significância estatística ou " confiança " (seja o que for) ainda podem ser importantes e merecem ser publicados nos principais periódicos, se abordarem questões importantes de pesquisa com métodos rigorosos".

Eu acho que isso poderia ajudar a mitigar a obsessão pelos valores-p pelos principais periódicos, o que está por trás do uso indevido dos valores-p .


Obrigado pela sua resposta, isso é útil. Vou passar algum tempo lendo Blume et al. sobre os valores p de segunda geração , parece bastante legível.
uhoh 27/03

11
@ uhoh, fico feliz que minha resposta seja útil para sua pergunta.
Krantz

1

Uma coisa que não foi mencionada é que erro ou significância são estimativas estatísticas, não medidas físicas reais: elas dependem muito dos dados que você tem disponível e de como você os processa. Você só pode fornecer um valor preciso de erro e significância se tiver medido todos os eventos possíveis. Geralmente não é esse o caso, longe disso!

Portanto, toda estimativa de erro ou significância, neste caso qualquer valor P, é por definição imprecisa e não deve ser confiável para descrever a pesquisa subjacente - e muito menos fenômenos! - com precisão. De fato, não deve ser confiável transmitir nada sobre os resultados SEM o conhecimento do que está sendo representado, como o erro foi estimado e o que foi feito para controlar os dados de qualidade. Por exemplo, uma maneira de reduzir o erro estimado é remover discrepâncias. Se essa remoção também é feita estatisticamente, como você pode saber se os valores discrepantes foram erros reais, em vez de medidas reais improváveis ​​que devem ser incluídas no erro? Como o erro reduzido pode melhorar a significância dos resultados? E quanto a medições erradas perto das estimativas? Eles melhoram o erro e pode afetar a significância estatística, mas pode levar a conclusões erradas!

Na verdade, eu faço modelagem física e criei modelos onde o erro 3-sigma é completamente não-físico. Ou seja, estatisticamente, há cerca de um evento em mil (bem ... mais frequentemente do que isso, mas discordo) que resultaria em um valor completamente ridículo. A magnitude do erro de 3 intervalos no meu campo é aproximadamente equivalente a ter a melhor estimativa possível de 1 cm, transformando-se em um metro de vez em quando. No entanto, esse é realmente um resultado aceito ao fornecer intervalo estatístico +/- calculado a partir de dados físicos e empíricos em meu campo. Certamente, a estreiteza do intervalo de incerteza é respeitada, mas geralmente o valor da estimativa de melhor estimativa é um resultado mais útil, mesmo quando o intervalo de erro nominal é maior.

Como observação lateral, eu já fui pessoalmente responsável por um desses em cada mil outliers. Eu estava no processo de calibrar um instrumento quando um evento aconteceu, que deveríamos medir. Infelizmente, esse ponto de dados teria sido exatamente um desses 100 pontos discrepantes; portanto, em certo sentido, eles acontecem e são incluídos no erro de modelagem!


"Você só pode fornecer medidas precisas se tiver medido todos os eventos possíveis". Hmm. Então, a precisão é inútil? E também irrelevante? Expanda a diferença entre precisão e viés. As estimativas imprecisas são tendenciosas ou imparciais? Se eles são imparciais, então eles não são um pouco úteis? "Por exemplo, uma maneira de reduzir o erro é remover valores discrepantes." Hmm. Isso reduzirá a variação da amostra, mas "erro"? "... frequentemente o valor da estimativa de melhor estimativa é um resultado mais útil, mesmo quando o intervalo de erro nominal é maior" Não nego que um bom prior seja melhor que um mau experimento.
Peter Leopold

O texto foi modificado um pouco com base no seu comentário. O que eu quis dizer foi que a medida estatística de erro é sempre uma estimativa, a menos que você tenha todos os testes individuais possíveis, por assim dizer, disponíveis. Isso raramente acontece, exceto quando, por exemplo, pesquisa um número definido de pessoas (não como amostras de uma multidão maior ou da população em geral).
Geenimetsuri 21/03

11
Eu sou um praticante que usa estatística em vez de estatístico. Penso que um problema básico com os valores de p é que muitos que não estão familiarizados com o que estão confundem com significado substantivo. Assim, me pediram para determinar quais inclinações são importantes usando valores de p, independentemente de as inclinações serem grandes ou não. Um problema semelhante é usá-las para determinar o impacto relativo das variáveis ​​(o que é crítico para mim, mas que recebe surpreendentemente pouca atenção na literatura de regressão).
user54285 22/03
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.