Como você explicaria a significância estatística de pessoas sem formação estatística?

11

Antecedentes:
Eu tive que realizar uma análise de dados para um cliente (algum tipo de advogado) que era um iniciante em estatística. Ele me perguntou o que significa o termo "significância estatística" e eu realmente tentei explicá-lo ... mas, como não sou bom em explicar as coisas, falhei;)

statistical-significance inference communication

— Daniel Ryback
fonte

15

As diferenças acontecem como resultado do acaso.

Quando acreditamos que algo é estatisticamente significativo, acreditamos que a diferença é maior do que pode razoavelmente ser explicada como uma ocorrência casual.

— Charles
fonte

Eu gosto do uso do acaso, mas acho que isso é altamente enganador em termos de como o teste de significância é comumente usado. Por exemplo, um tamanho de amostra grande significa que você quase sempre terá importância devido a diferenças na linha de base do "acaso". É amplamente aceito que esses resultados podem ser chamados de "estatisticamente significativos", apesar de serem explicados razoavelmente por acaso.

— Flask

@Flask: em que sentido essas diferenças de linha de base são devidas ao acaso?

— Scortchi - Restabelece Monica

@ Scortchi Se a randomização tiver sido realizada, as diferenças podem ser devidas ao acaso. Veja aqui . Mesmo que tenha sido realizado, algo pode apresentar viés posteriormente. Veja aqui . Se a randomização não tiver sido realizada, pode ser devido ao acaso ou ao viés do investigador ou a qualquer número de razões.

— Flask

1

Resposta útil, exceto que se aplica apenas a testes de diferenças.

— Rolando2

2

+1 Essa é uma excelente resposta, pois evita os arcanos de valores-p, probabilidades, distribuições, hipóteses nulas, etc. O fato de não ser abrangente é irrelevante: os detalhes e as variações podem ser tratados posteriormente. Se pressionada para melhorar isso, a principal mudança que eu faria seria enfatizar que as crenças sobre significância estatística são baseadas em dados : que distinguiriam essa descrição de, digamos, crenças teológicas.

— whuber

3

NOTA: O que quero enfatizar nesta resposta é que a significância estatística é uma ferramenta útil, mas também diferente da verdade.

Pegue um baralho de 52 cartas. Se meu cliente é inocente, é um baralho normal de 13 corações. Se meu cliente está mentindo, é um pacote fixo e todas as 52 cartas são copas.

Eu desenho a primeira carta e é um coração. Aha, culpado! Bem, obviamente, o senso comum nos diz que não é esse o caso: havia uma chance em quatro de que isso aconteceria mesmo que ele fosse inocente. Não temos significância estatística apenas olhando para uma carta.

Então, desenhamos uma segunda carta. Outro coração. Hhhmmm ... definitivamente culpado então! Bem, ainda havia 12 copas naquelas 51 cartas restantes, então não é impossível. A matemática (13/52 * 12/51 = 0,0588) nos diz que isso acontece cerca de 6% das vezes, mesmo que seja inocente. Para a maioria dos cientistas, isso ainda não conta.

Compre uma terceira carta, outro coração! Três seguidos. As chances de isso acontecer são (13/52 * 12/51 * 11/50 = 0,01294), portanto, pouco mais de 1% do tempo isso pode acontecer por acaso.

Em grande parte da ciência, 5% é usado como ponto de corte. Portanto, se você não tiver outra evidência além dessas três cartas, terá um resultado estatisticamente significativo de que ele é culpado.

O ponto importante é que, quanto mais cartas você puder olhar, melhor será sua confiança na culpa dele, o que é outra maneira de dizer que quanto maior a significância estatística se torna.

NOTA: você nunca tem uma prova da culpa dele, a menos que tenha permissão para olhar 14 cartas. Com um baralho normal, teoricamente é possível desenhar 13 copas seguidas, mas 14 são impossíveis. [Além dos pedantes: vamos supor que os números nos cartões não sejam visíveis; todas as cartas são um dos quatro naipes possíveis, e é isso.]

NOTA: você tem prova de sua inocência no momento em que compra qualquer carta que não seja um coração. Isso ocorre porque havia apenas dois pacotes possíveis: normal ou todos os corações. A vida real é mais complicada e a matemática também é mais complicada.

A propósito, se o seu cliente não é um jogador de cartas, tente o Monopólio: todo mundo joga seis vezes duas vezes; mas se alguém obtiver o dobro de seis sempre que você suspeitar. As estatísticas apenas nos permitem colocar um número exato de quão suspeitos devemos ser.

— Darren Cook
fonte

3

Meu próprio conselho é não falar sobre o seguinte:

valores p
estatísticas de teste
a probabilidade de que as coisas aconteçam apenas por acaso.

Não seja muito duro consigo mesmo sobre o advogado. É uma pessoa instruída que passou pelo menos um semestre em uma aula de estatística da universidade, e nem um pouco disso ficou com ele. É a mesma história para praticamente todos os outros não-cientistas com quem trabalhei - o significado estatístico não se mantém . É um conceito não muito natural.

Convido você a explicar a significância estatística em termos de evidência . Estatísticos clássicos codificaram evidências em uma escala de 0 a 1, onde valores menores constituem mais evidências e 0,05 é onde a linha é desenhada convencionalmente.

— Ben Ogorek
fonte

imo a idéia de sig. pode ficar com não cientistas; o que geralmente é visto como antinatural é a definição técnica, se as pessoas chegarem tão longe. No que diz respeito às evidências, é claro que se trata de evidências: a questão é como se lida estatisticamente com as evidências para chegar a uma decisão sobre sig.

— Rolando2

Gosto do seu otimismo, mas discordo que é óbvio para a pessoa comum que a significância estatística se refere a evidências. Eu acho que eles veem isso como uma espécie de alternância quando o conjunto de dados fica grande o suficiente e todos os números calculados agora são de alguma forma "válidos". Você está afirmando que é importante para o leigo saber como a evidência é quantificada; portanto, prepare-se para falar sobre probabilidades computadas sob uma hipótese que você provavelmente não acreditava ser verdadeira em primeiro lugar.

— Ben Ogórek

Ah, mas se você falar sobre evidências, você entra na terra bayesiana.

— Arthur B.

1

Não creio que os bayesianos possuam "evidência" (o conceito), embora eles certamente o tenham formalizado. Eu argumentaria que um pequeno valor p é evidência de alguma coisa.

— Ben Ogórek

1

"Estatisticamente significativo" significa que algo poderia ter acontecido aleatoriamente, mas é improvável. Em vez disso, é muito mais provável que exista algum tipo de causa. Você deve tornar isso mais concreto com um exemplo relevante para o seu cliente, pois essa explicação é muito abstrata.

Por exemplo, se a advogada Anne venceu muito mais casos do que Bill, isso poderia ter acontecido aleatoriamente. No entanto, se Anne ganhou mais casos estatisticamente significativos, é muito mais provável que exista algo que possa ajudar a explicar por que Anne ganhou mais casos que Bill. Nós não sabemos a causa. Talvez Anne seja uma advogada melhor ou Bill intencionalmente escolha casos mais difíceis.

— Jonathan
fonte

0

Mantenha-o simples e conciso!

Um valor-p é definido como a probabilidade de obter resultados tão ou mais extremos como o que observamos assumindo que o nulo é verdadeiro. Se o valor-p for pequeno o suficiente, o nulo provavelmente não é verdadeiro. Nós escolhemos arbitrariamente um ponto de corte para o que consideramos um "pequeno o suficiente" (alfa) e para todos os valores de p que caem abaixo de alfa, rejeitamos o nulo.

É assim que eu explico na minha classe de estatísticas de introdução.

— TrynnaDoStat
fonte

Mas e se você não tiver como escolher uma hipótese nula plausível (ou seja, nunca dois grupos de pessoas são exatamente iguais, mas você também não possui informações suficientes para prever algo melhor do que mean1 = mean2)? Explicar a significância estatística sem mencionar as limitações pode causar danos.

— Flask

0

Vou tentar.

Primeiro, você calcula um valor-p com base nos dados médios e em como os dados são variáveis. Quanto mais variável, menor a probabilidade de obter um pequeno valor-p. Por outro lado, se, por exemplo, você estiver comparando dois grupos, quanto maior a diferença entre as médias deles, menor o valor-p.

Além disso, a variabilidade dos dados pode ser um pouco cancelada com mais dados. Criação de imagens de dois conjuntos de dados com a mesma diferença entre duas médias e a mesma quantidade de variabilidade. Nesse caso, o conjunto com tamanho de amostra maior terá um valor p menor.

A parte do teste está apenas vendo se o valor p é menor que algum número. Geralmente, as pessoas usam 0,05, mas esse é um costume social arbitrário. Muitas pessoas pensam que não faz sentido usar um número arbitrário, mas isso é muito comum por razões históricas.

Lembre-se também de que o fato de o teste de significância indicar que há uma diferença entre dois grupos não significa que você sabe por que existe essa diferença. Por outro lado, se o teste disser que não há diferença significativa, isso pode ser apenas porque sua variabilidade era muito grande e você não tinha dados suficientes para obter um valor de p baixo, isso não significa que não há diferença real.

Editar:

Para resumir, um valor menor de p significa mais evidências contra a previsão:

Diferença do resultado previsto -> Baixo valor de p

Mais dados -> Baixo valor de p

Mais variabilidade -> Valor p elevado

Diminuir o valor p significa mais evidências dizendo que a previsão é falsa. Todas as previsões no histórico foram mostradas falsas com alguma casa decimal.

— Frasco
fonte

0

A significância estatística é um conceito usado para fornecer justificativa para aceitar ou rejeitar uma dada hipótese. Dado um conjunto de dados, um analista pode calcular estatísticas e determinar a magnitude de vários relacionamentos entre diferentes variáveis.

O trabalho das estatísticas é determinar se os dados contêm evidências suficientes para concluir que as estatísticas ou relações computadas observadas entre variáveis podem ser interpretadas como declarações verdadeiras ou se os resultados observados nos dados da amostra são simplesmente por acaso. Isso é feito determinando algumas estatísticas da amostra que exibiriam certas características se a hipótese nula for verdadeira, mas não se a hipótese nula for falsa. Quanto mais a estatística amostral relevante parecer exibir as características esperadas sob a hipótese nula, mais forte será a evidência estatística de que a hipótese nula está correta. Da mesma forma, quanto menos a estatística da amostra parecer exibir as características esperadas sob a hipótese nula, mais fraca será a evidência estatística de que a hipótese nula está correta.

A quantidade em que a estatística da amostra apresenta as características esperadas sob o nulo é uma questão de grau, mas para concluir que a hipótese nula é aceita ou rejeitada, deve haver algum corte arbitrário. Como tal, um valor de corte é escolhido. Se a estatística da amostra cair dentro ou em um lado do valor de corte, diz-se que ela está em conformidade com as características esperadas sob a hipótese nula e, portanto, o resultado pode ser considerado estatisticamente significativo para o valor de corte especificado (por exemplo, no alfa de 5% nível). Se a estatística relevante da amostra cair do outro lado do valor de corte, diz-se que ela não está em conformidade com as características esperadas sob a hipótese nula e, portanto, o resultado não é considerado estatisticamente significativo para o valor de corte especificado.

— tjnel
fonte

Mas com que frequência há realmente uma população distinta determinada previamente à qual os resultados devem se aplicar. Geralmente, é apresentado um argumento para aplicar o resultado além da população exata estudada, que era uma amostra única. O quanto essa singularidade dos sujeitos / o que importa é desconhecida em muitas circunstâncias. Uma exceção pode ser o controle de qualidade da fabricação, mas o teste de significância é usado muito mais amplamente que isso. Quero apenas enfatizar as limitações do procedimento, que foram omitidas na minha própria educação.

— Flask

@ Atlas é um bom ponto. Editei minha resposta para tentar torná-la mais geral.

— tjnel