“Intenção do investigador” e limiares / valores-p

Estou lendo os slides "Doing Bayesian Data Analysis" de John Kruschke , mas na verdade tenho uma pergunta sobre sua interpretação dos testes t e / ou toda a estrutura de testes de significância de hipóteses nulas. Ele argumenta que os valores de p estão mal definidos porque dependem das intenções do investigador.

Em particular, ele fornece um exemplo (páginas 3-6) de dois laboratórios que coletam conjuntos de dados idênticos comparando dois tratamentos. Um laboratório compromete-se a coletar dados de 12 indivíduos (6 por condição), enquanto o outro coleta dados por um período fixo, o que também gera 12 indivíduos. De acordo com os slides, o valor crítico para difere entre esses dois esquemas de coleta de dados: para o primeiro, mas para o último ! $t$ $p<0.05$ $t_{\textrm{crit}}=2.33$ $t_{\textrm{crit}}=2.45$

Uma postagem no blog - que agora não consigo encontrar - sugeriu que o cenário de duração fixa tem mais graus de liberdade, pois eles poderiam ter coletado dados de 11, 13 ou qualquer outro número de assuntos, enquanto o cenário de N fixo, por definição, tem . $N=12$

Alguém poderia me explicar:

Por que o valor crítico diferiria entre essas condições?
(Supondo que seja um problema) Como alguém corrige / compara os efeitos de diferentes critérios de parada?

Eu sei que definir os critérios de parada com base na significância (por exemplo, amostra até ) pode aumentar as chances de um erro do tipo I, mas isso não parece estar acontecendo aqui, pois nenhuma regra de parada depende do resultado de a análise. $p<0.05$

hypothesis-testing

— Matt Krause
fonte

Respostas:

Aqui estão mais algumas informações: http://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distributions-of-t-when.html

Uma discussão mais completa é fornecida aqui: http://www.indiana.edu/~kruschke/BEST/ Esse artigo considera os valores de p para parar no limite N, parar na duração do limite e parar no valor do limite t.

— John K. Kruschke
fonte

Uau! Direto da boca do cavalo, por assim dizer ... É definitivamente uma ideia interessante que não me ocorreu. Obrigado pela informação adicional.

— 224126 Matt-Krause

Eu gostaria de acrescentar que isso é discutido detalhadamente no livro do Dr. Kruschke (no capítulo 11).

— Matt Krause

Finalmente, localizei o artigo associado aos slides: Kruschke (2010) , também disponível diretamente do autor (via CiteSeerX) aqui , uma vez que a revista não é amplamente veiculada. A explicação é um pouco prosaica, mas ainda não tenho certeza se a comprei.

No caso de N fixo, o valor crítico é calculado da seguinte forma: as amostras são coletadas aleatoriamente da (mesma) população e um valor é calculado. Esse processo é repetido várias vezes para criar uma distribuição nula. Finalmente, está definido como o percentil 95 dessa distribuição. $t$ $2N$ $t$ $t_{crit}$

Para o caso de duração fixa, ele assume que os sujeitos chegam a uma taxa média . A distribuição nula é construída repetindo duas etapas. Na primeira etapa, o número de sujeitos para cada condição e é obtido de uma distribuição de posses com o parâmetro . Em seguida, os sorteios e aleatórios da população são usados para calcular um valor . Isso é repetido várias vezes e é definido como o percentil 95 dessa distribuição. $\lambda$ $N_1$ $N_2$ $\lambda$ $N_1$ $N_2$ $t$ $t_{crit}$

Isso parece um pouco ... atrevido ... para mim. Pelo que entendi, não há uma única distribuição ; em vez disso, é uma família de distribuições, com uma forma parcialmente determinada pelo parâmetro graus de liberdade. Para a condição fixa , existem sujeitos por grupo e o valor apropriado para um teste t não pareado é aquele com graus de liberdade, que é provavelmente o que sua simulação reproduz. $t$ $N$ $N$ $t$ $2N-2$

Na outra condição, parece que a distribuição tipo " " é na verdade uma combinação de amostras de muitas distribuições diferentes , dependendo dos desenhos específicos. Ao definir , é possível obter os graus médios de liberdade iguais a , mas isso não é suficiente. Por exemplo, a média das distribuições para e não parece ser a distribuição com 3 graus de liberdade. $t$ $t$ $\lambda=N$ $2N-N$ $t$ $\nu=1$ $\nu=5$ $t$

Em suma:

O autor estava gerando por simulação, em vez de apenas calculá-los a partir do CDF. $t_{crit}$
A maneira como o autor simulou o cenário de duração fixa parece engordar as caudas da distribuição correspondente . $t$
Continuo não convencido de que isso seja realmente um problema, mas ficaria feliz em ler / votar / aceitar respostas se alguém pensar de outra forma.

— Matt Krause
fonte

Por que você é capaz de responder sua própria pergunta e dar uma marca de seleção? Não parece que você deve se dar bem!

— 22812 Michael R. Chernick

Não há nada errado em responder à sua própria pergunta , Michael.

— chl

@ MichaelChernick, acredito que você não receberá nenhum representante se aceitar sua própria resposta. Na época, parecia a coisa certa a fazer, já que eu tinha mais ou menos rastreado a resposta nas duas semanas seguintes, mas mudei meu aceite para a resposta de John K. Kruschke, já que ele é claramente a autoridade por conta própria. slides :-)

— Matt Krause

Agradecimentos interessantes. Mas não vejo por que alguém deve verificar sua própria resposta a qualquer momento, mesmo que pareça correta e a melhor. Estabelecemos que verificar sua própria resposta não fornece pontos de repetição.

— 22912 Michael Michael Chernick

Como marcar uma resposta como aceita não tem outro objetivo senão indicar uma solução correta (para futuros visitantes), especialmente quando nenhuma outra foi proposta, não vejo problema com isso. Pessoalmente, apoiei esta resposta há muito tempo, porque aprecio que o OP nos permita se beneficiar de sua própria pesquisa. E sinto muito por não poder dar um voto adicional pelo simples fato de seguir este tópico e atualizar sua decisão. PS "Nós estabelecemos ..." refere-se a Por que é possível se dar pontos de reputação? .

— chl