Interpretação de resultados não significativos como "tendências"

16

Recentemente, dois colegas de trabalho diferentes usaram um tipo de argumento sobre diferenças entre condições que me parecem incorretas. Ambos os colegas de trabalho usam estatísticas, mas não são estatísticos. Eu sou um novato em estatística.

Nos dois casos, argumentei que, como não havia diferença significativa entre duas condições em um experimento, era incorreto fazer uma afirmação geral sobre esses grupos em relação à manipulação. Observe que "fazer uma afirmação geral" significa algo como escrever: "O grupo A usou X com mais frequência que o grupo B".

Meus colegas responderam: "mesmo que não haja diferença significativa, a tendência ainda está lá" e "mesmo que não haja diferença significativa, ainda há diferença". Para mim, ambos parecem um equívoco, ou seja, eles mudaram o significado de "diferença" de: "uma diferença que provavelmente é resultado de algo diferente do acaso" (ou seja, significância estatística), para "qualquer diferença zero na medição entre os grupos ".

A resposta dos meus colegas de trabalho estava correta? Não aceitei com eles porque me superaram.

statistical-significance

— amdex
fonte

Eu encontrei estes artigos úteis Ainda não é significativo e marginalmente signficant

— user20637

26

Esta é uma grande pergunta; a resposta depende muito do contexto.

Em geral, eu diria que você está certo : fazer uma afirmação geral não qualificada como "o grupo A usou X com mais frequência do que o grupo B" é enganoso. Seria melhor dizer algo como

no nosso grupo experimental A usou X com mais frequência do que no grupo B, mas não sabemos como isso acontecerá na população em geral.

ou

embora o grupo A tenha usado X 13% mais frequentemente do que o grupo B em nosso experimento, nossa estimativa da diferença na população em geral não é clara : os valores plausíveis variam de A usando X 5% menos frequentemente do que o grupo B a A usando X 21% mais frequentemente do que o grupo B

ou

o grupo A usou X 13% mais frequentemente que o grupo B, mas a diferença não foi estatisticamente significante (IC 95% -5% a 21%; p = 0,75)

Por outro lado: seus colegas de trabalho estão certos de que , nesse experimento em particular , o grupo A usou X com mais frequência que o grupo B. No entanto, as pessoas raramente se importam com os participantes de um experimento específico; eles querem saber como seus resultados serão generalizados para uma população maior e, nesse caso, a resposta geral é que você não pode dizer com segurança se um grupo A selecionado aleatoriamente usará X com mais ou menos frequência do que um grupo B.

Se você precisava fazer hoje uma escolha sobre usar o tratamento A ou B para aumentar o uso de X, na ausência de outras informações ou diferenças de custos, etc., então escolher A seria sua melhor aposta. Mas se você quiser se sentir confortável com a possibilidade de fazer a escolha certa, precisará de mais informações.

Observe que você não deve dizer "não há diferença entre o grupo A e o grupo B no uso de X" ou "o grupo A e o grupo B usam X a mesma quantidade". Isso é verdade nem dos participantes do seu experimento (onde A usou X 13% a mais) nem da população em geral; na maioria dos contextos do mundo real, você sabe que realmente deve haver algum efeito (por menor que seja) de A vs. B; você simplesmente não sabe em que direção ele vai.

— Ben Bolker
fonte

5

Bela resposta, Ben! Gostaria de saber se a sua segunda declaração de exemplo pode ser modificada para maior clareza, para refletir a essência da primeira declaração de exemplo: "embora o grupo A tenha usado X 13% mais frequentemente do que o grupo B em nossa experiência, a diferença no uso de X entre os grupos no geral A POPULAÇÃO não era clara : a faixa plausível DESSE DIFERENÇA passou de A usando X 5% menos frequentemente que o grupo B para A usando X 21% mais frequentemente que o grupo B. "

— Isabella Ghement 05/07/19

3

graças, parcialmente incorporadas (tentando equilíbrio brevidade / clareza e precisão ...)

— Ben Bolker

8

+1 Acho que muitas pessoas não percebem que, na ausência de evidências estatísticas, as diferenças observadas podem muito bem ser o oposto do que está acontecendo com a população!

— Dave

@ Dave: mesmo se a presença de "evidência estatística" (? P-valor estatisticamente significativo), "As diferenças observadas pode muito bem ser o oposto do que está acontecendo com a população"

— Boscovich

@boscovich Claro, eu estava falando em absoluto quando estamos fazendo estatísticas, mas penso nisso como um valor p insignificante, o que significa que você realmente não tem idéia do que está acontecendo com a população. Pelo menos com um valor-p significativo, você alcançou um limite estabelecido de evidência para sugerir que você sabe alguma coisa. Mas definitivamente é possível obter um valor p significativo quando a direção é identificada incorretamente. Esse erro deve ocorrer de tempos em tempos.

— Dave

3

Essa é uma pergunta difícil!

Primeiramente, qualquer limiar que você escolher para determinar a significância estatística é arbitrário. O fato de a maioria das pessoas usar um valor de $5\%$ não o torna mais correto do que qualquer outro. Portanto, em algum sentido, você deve pensar na significância estatística como um "espectro" e não como um assunto em preto ou branco. $p$

Vamos supor que temos uma hipótese nula $H_0$ (por exemplo, os grupos $A$ e $B$ mostram a mesma média para a variável $X$ ou a média da população para a variável $Y$ está abaixo de 5). Você pode pensar na hipótese nula como a hipótese "sem tendência". Reunimos alguns dados para verificar se podemos refutar $H_0$ (a hipótese nula nunca é "provada verdadeira"). Com nossa amostra, fazemos algumas estatísticas e, eventualmente, obtemos um valor- $p$ . Em breve, o valor- $p$ é a probabilidade de que o acaso puro produza resultados igualmente (ou mais) extremos do que aqueles que obtivemos, assumindo, é claro, $H_0$ para ser verdade (ou seja, nenhuma tendência).

Se obtivermos um valor $p$ "baixo" , dizemos que o acaso raramente produz resultados como esses; portanto, rejeitamos $H_0$ (há evidências estatisticamente significativas de que $H_0$ poderia ser falso). Se obtivermos um valor $p$ "alto" , é mais provável que os resultados sejam resultado de sorte do que de tendência real. Não dizemos que $H_0$ é verdade, mas sim que estudos adicionais devem ser realizados para rejeitá-lo.

AVISO: Um valor $p$ de $23\%$ não significa que há uma chance de $23\%$ de não haver nenhuma tendência; em vez disso, essa chance gera resultados como os $23\%$ do tempo, o que parece semelhante, mas é completamente diferente. coisa. Por exemplo, se afirmo algo ridículo, como "Posso prever os resultados de rolagem de dados uma hora antes que eles ocorram", fazemos um experimento para verificar a hipótese nula $H_0:=$ "Não posso fazer isso" e obter $0.5\%$ $p-$ valor, você ainda teria um bom motivo para não acreditar em mim, apesar da significância estatística.

Então, com essas idéias em mente, vamos voltar à sua pergunta principal. Digamos que queremos verificar se o aumento da dose do medicamento $X$ afeta a probabilidade de pacientes sobreviverem a uma determinada doença. Realizamos um experimento, ajustamos um modelo de regressão logística (levando em consideração muitas outras variáveis) e verificamos a significância no coeficiente associado à variável "dose" (chamando esse coeficiente $\beta$ , testamos uma hipótese nula $H_0:$ $\beta=0$ ou talvez $\beta \leq 0$ Em inglês, "a droga não tem efeito" ou "a droga não tem efeito ou tem um efeito negativo".

$\beta=0$

$4\%$

Espero que essa explicação muito prolixo ajude você a organizar suas idéias. O resumo é que você está absolutamente certo! Não devemos preencher nossos relatórios, seja para pesquisa, negócios ou qualquer outra coisa, com alegações selvagens apoiadas por poucas evidências. Se você realmente acha que existe uma tendência, mas não alcançou significância estatística, repita o experimento com mais dados!

— David
fonte

11

+1 por apontar que qualquer limite de significância é arbitrário (e, por implicação, não é possível inferir afirmações absolutas sobre a população em geral a partir dos resultados de uma amostra - tudo o que você obtém são melhores probabilidades).

— Peter - Restabelece Monica

0

Efeito significativo significa apenas que você mediu uma anomalia improvável (improvável se a hipótese nula, ausência de efeito, fosse verdadeira). E, como conseqüência, deve-se duvidar com alta probabilidade (embora essa probabilidade não seja igual ao valor-p e também dependa de crenças anteriores).

Dependendo da qualidade do experimento, é possível medir o mesmo tamanho de efeito , mas pode não ser uma anomalia (um resultado improvável se a hipótese nula for verdadeira).

Quando você observa um efeito, mas não é significativo, na verdade ele (o efeito) ainda pode estar lá, mas não é significativo (as medidas não indicam que a hipótese nula deve ser duvidosa / rejeitada com alta probabilidade). Isso significa que você deve melhorar sua experiência, reunir mais dados, para ter mais certeza.

Portanto, em vez do efeito dicotomia versus efeito nulo, você deve ir para as quatro categorias a seguir :

Imagem de https://en.wikipedia.org/wiki/Equivalence_test explicando o procedimento de dois testes t unilaterais (TOST)

Você parece estar na categoria D, o teste é inconclusivo. Seus colegas de trabalho podem estar errados ao dizer que há um efeito. No entanto, é igualmente errado dizer que não há efeito!

— Sextus Empiricus
fonte

p

$p$

@ David, eu concordo plenamente com você que o valor p é mais precisamente uma medida para 'a probabilidade de que cometamos um erro condicional que a hipótese nula seja verdadeira' (ou a probabilidade de obter resultados tão extremos), e não expressar diretamente 'a probabilidade de que a hipótese nula esteja errada'. No entanto, sinto que o valor-p não deve ser usado nesse sentido "oficial". O valor-p é usado para expressar dúvida na hipótese nula, para expressar que os resultados indicam uma anomalia e que as anomalias devem nos fazer duvidar da nula ... #

— 317 Sextus

... no seu caso, quando você mostra desafiar o efeito nulo (desafie a idéia de que não se pode prever as moedas) fornecendo um caso raro (como a dama que prova o chá), então deveríamos ter dúvida no nulo hipótese. Na prática, precisaríamos definir um valor p apropriado para isso (já que de fato alguém poderia desafiar o nulo por mero acaso), e eu não usaria o nível de 1%. A alta probabilidade de duvidar do nulo não deve ser equiparada, um a um, ao valor-p (já que essa probabilidade é mais um conceito bayesiano).

— Sextus Empiricus

Eu adaptei o texto para tirar essa má interpretação.

— Sextus Empiricus

0

Parece que eles estão discutindo o valor p versus a definição de "Tendência".

Se você plotar os dados em um gráfico de execução, poderá ver uma tendência ... uma série de pontos de plotagem que mostram uma tendência aumentando ou diminuindo ao longo do tempo.

Mas, quando você faz as estatísticas, o valor de p sugere que não é significativo.

Para o valor-p mostrar pouco significado, mas para eles verem uma tendência / execução na série de dados ... isso teria que ser uma tendência muito leve.

Então, se fosse esse o caso, eu retornaria ao valor p. IE: ok, sim, há uma tendência / execução nos dados .. mas é tão leve e insignificante que as estatísticas sugerem que não vale a pena prosseguir Análise de.

Uma tendência insignificante é algo que pode ser atribuído a algum tipo de viés na pesquisa .. talvez algo muito menor .. algo que pode ser apenas uma ocorrência única no experimento que criou uma tendência ligeira.

Se eu fosse o gerente do grupo, diria a eles para parar de desperdiçar tempo e dinheiro explorando tendências insignificantes e procurar outras mais significativas.

— blahblah
fonte

0

Parece que, nesse caso, eles têm pouca justificativa para sua reivindicação e estão apenas abusando das estatísticas para chegar à conclusão que já tinham. Mas há momentos em que é aceitável não ser tão rigoroso com os pontos de corte de p-val. Este (como usar significância estatística e pontos de corte pval) é um debate que tem ocorrido desde que Fisher, Neyman e Pearson lançaram as bases dos testes estatísticos.

Digamos que você está construindo um modelo e está decidindo quais variáveis incluir. Você coleta um pouco de dados para fazer uma investigação preliminar sobre possíveis variáveis. Agora, existe essa variável na qual a equipe de negócios realmente está interessada, mas sua investigação preliminar mostra que a variável não é estatisticamente significativa. No entanto, a "direção" da variável comporta o que a equipe de negócios esperava e, embora não atingisse o limite de significância, estava próxima. Talvez houvesse suspeita de correlação positiva com o resultado e você obteve um coeficiente beta positivo, mas o pval estava um pouco acima do ponto de corte 0,05.

Nesse caso, você pode ir em frente e incluí-lo. É uma espécie de estatística bayesiana informal - havia uma forte crença anterior de que ela é uma variável útil e a investigação inicial mostrou alguma evidência nessa direção (mas não uma evidência estatisticamente significativa!), Então você oferece o benefício da dúvida e mantenha-o no modelo. Talvez com mais dados seja mais evidente que relação ela tem com o resultado de interesse.

Outro exemplo pode ser o local em que você está construindo um novo modelo e as variáveis usadas no modelo anterior - você pode continuar incluindo uma variável marginal (que está no limite de significância) para manter alguma continuidade do modelo modelar.

Basicamente, dependendo do que você está fazendo, há razões para ser cada vez menos rigoroso com esse tipo de coisa.

Por outro lado, também é importante ter em mente que o significado estatístico não precisa implicar em significado prático! Lembre-se de que no centro de tudo isso está o tamanho da amostra. Colete dados suficientes e o erro padrão da estimativa diminuirá para 0. Isso fará qualquer tipo de diferença, por menor que seja, 'estatisticamente significante', mesmo que essa diferença possa não significar nada no mundo real. Por exemplo, suponha que a probabilidade de uma determinada moeda pousar nas cabeças fosse 0,500000000000001. Isso significa que, teoricamente, você pode projetar um experimento que conclua que a moeda não é justa, mas para todos os efeitos, a moeda pode ser tratada como uma moeda justa.

— eps
fonte