Devo incomodar que a potência do teste t seja relativamente pequena quando H0 já for rejeitado?


8

Eu tenho duas amostras bem pequenas ( para cada) e recebo uma potência de teste t de duas amostras para elas 0,49, que é relativamente pequena (calculada por R ). No entanto, o teste t Welch Two Sample fornece um valor p de aqui e, portanto, a hipótese nula pode ser rejeitada.0,032n=7power.t.test()0.032

Agora devo me preocupar que o poder é pequeno?

Meu entendimento é que poder = onde é a probabilidade de erro do tipo II. Aqui, isso significa que meu teste falharia em rejeitar H0 em cerca de 50% dos casos em que deveria ser rejeitado; portanto, eu deveria estar preocupado, especialmente quando minhas amostras particulares não puderam rejeitar H0. Mas, no caso de minhas amostras particulares, parece que eu tenho sorte e meu teste t, com alguma falta de poder, conseguiu rejeitar, então não preciso me preocupar com beta e posso aproveitar a possibilidade de mostrar uma diferença significativa na amostra significa.β1ββ

Minha interpretação está correta? Ou sinto falta de algo importante?


2
Poder é algo que você deve calcular antes de projetar um experimento, para escolher a escala do experimento necessária para detectar uma diferença de uma certa magnitude. Não é muito bom calculá-lo depois.
EdM

Você rejeita por um de dois motivos; seu nulo é falso ou você cometeu um erro do tipo I. Se o nulo tiver alguma chance de ser verdade, quanto menor o seu poder, maior a chance de você cometer um erro do tipo I. No entanto, se você estiver calculando a potência com base no tamanho do efeito observado , tenha cuidado, você deve ter muito cuidado ao trabalhar com isso; não se comporta como você poderia esperar.
Glen_b -Reinstate Monica

Respostas:


5

Em um sentido restrito, você está correto. O poder é a chance de rejeitar corretamente uma hipótese nula falsa, então você teve uma pequena chance, mas conseguiu fazê-lo de qualquer maneira.

No entanto, de uma perspectiva bayesiana de atualização de crenças, "reduzir o poder implica reduzir a mudança de crença que se justifica pela observação de um resultado estatisticamente significativo (McClelland et al. 2015)". Pense da seguinte maneira: se eu lhe dissesse que entrevistei 30.000 pessoas do público em geral e descobri que, ao contrário dos números de vendas, as pessoas tendem a gostar mais da Pepsi do que da Coca-Cola, isso seria muito atraente. Encontrei um resultado depois de estudar 1% da população (ou seja, o público em geral dos EUA). É provável que generalize para a população maior. Se eu pesquisasse 7 pessoas e encontrasse a mesma coisa, mesmo que fosse estatisticamente significativa, não convenceria ninguém. Você pode argumentar por várias razões (não é possível obter uma amostra representativa, as suposições de ANOVA / regressão podem não ser atendidas etc.), mas o que ' O importante é que o alto poder significa altamente persuasivo (e você deve ser tão crítico ou mais dos seus resultados quanto aqueles que está tentando convencer). Para a matemática bayesiana, bem como explicações adicionais, você pode conferir qualquer um dos seguintes.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Além disso, Ioannidis (2005) fornece alguns argumentos convincentes para resultados de baixa potência, refletindo erros do tipo I, mesmo na ausência de hackers p e outros vieses que geralmente resultam de baixa potência (e o documento é de acesso aberto caso você não trabalhe para uma universidade ou algo semelhante!).


Muito obrigado pela sua resposta! Definitivamente vou verificar McClelland e Ioannidis (sei que este é um artigo bastante popular). Seu exemplo com a pesquisa da Pepsi-Coca-Cola definitivamente faz sentido, então estou apenas tentando traçar um paralelo com a minha situação: minhas amostras estão relacionadas ao número de recaídas de pacientes com esquizofrenia em uma determinada população observada ao longo de 7 anos em dois meses comparados ( por exemplo, janeiro x julho). Portanto, não há chance de melhorar o protocolo experimental, como abordar mais pessoas. Eu só estava me perguntando se eu já posso dizer algo dos dados que eu já tenho.
Jrx1301

1
Você definitivamente pode. O problema está na interpretação, não na estatística. Algumas pessoas pegam o seu resultado e concluem: "Eu resolvi a esquizofrenia!" ou menos dramaticamente "Eu tenho um resultado significativo, portanto minha teoria é verdadeira e se aplica a todos!" Você provavelmente tem evidências que apóiam uma teoria, mas quão generalizável ela pode estar em questão. Considere coisas como a população real da qual você amostrou, ou seja, você realmente não amostrou da população de "pacientes com esquizofrenia", mas de uma subpopulação menor. A generalização para o pop'n maior requer argumentos extra-estatísticos.
le_andrew

Se você pesquisou n = 30.000 pessoas, mas obteve p = 0,032 (como no OP) para a diferença Pepsi / Coca-Cola, não vejo por que isso é mais convincente do que obter o mesmo valor p com apenas algumas pessoas. Qualquer tamanho de efeito significativo com n = 30.000 deve produzir um pequeno valor de p; portanto, p = 0,032 sugere um tamanho de efeito microscópico no qual o IMHO não estaria particularmente disposto a confiar.
Ameba

H0H0H0

2

N

NN>50%<50%

p.0550%

Então, "deveria [incomodar [você] que o poder é pequeno?" Sim e não. Se você fizesse uma análise de poder post-hoc tradicional (inválida), necessariamente obteria valores como esse - o exercício era completamente pouco informativo. Por outro lado, se levarmos a análise de potência a sério, um efeito significativo com uma configuração de baixa potência basicamente significa que o efeito observado precisa ser enviesado para ser maior do que realmente é, portanto, você deve confiar menos nos resultados.


Ótimo post! Caso você não saiba. Há um post de acompanhamento de uma de suas respostas anteriores aqui stats.stackexchange.com/questions/309745/…
Um pouco curioso demais

-1

ppαpαP(pα|H0)αβP(p>α|H1)β1β

H0H1

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
H1H11β1β

Para mais ilustrações, consulte os intervalos de confiança (IC). Pode-se argumentar que um tamanho maior da amostra tornará o IC mais estreito e, portanto, se o teste for significativo para uma amostra menor, também será significativo para a amostra maior. No entanto, também a localização do IC pode mudar quando incluirmos mais dados em nossa amostra, potencialmente tornando o resultado não significativo. Também é concebível que a amostra maior tenha um erro padrão muito maior e, portanto, o IC se torne mais amplo de fato. Pode-se dizer que um tamanho de amostra maior dá aos fatos mais oportunidades de provar a si mesmos.

p

[1] Colquhoun, "Uma investigação da taxa de falsas descobertas e a interpretação incorreta dos valores-p", Royal Society Open Science, 2014

[2] Colquhoun, "A reprodutibilidade da pesquisa e a má interpretação dos valores P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

p<.005

p

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.