Quanto menores os valores de do teste da ANOVA podem ser comparados com os de vários testes nos mesmos dados?

Introdução: Tendo notado a atenção recebida hoje por esta pergunta: "A ANOVA pode ser significativa quando nenhum dos testes t emparelhados é? ", Pensei que poderia reformulá-la de uma maneira interessante que merecesse seu próprio conjunto de respostas. .

Uma variedade de resultados incongruentes (pelo valor nominal) pode ocorrer quando a significância estatística é entendida como uma dicotomia simples e julgada com base na mera base da qual é maior, o ou o . A resposta da @ Glen_b à pergunta acima apresenta um exemplo útil de um caso em que: $p$ $\alpha$

Um teste ANOVA produz um para uma variável independente (IV) com quatro níveis, mas $F$ $p_F<.05$
$p_t>.08$ para todos os testes duas amostras que comparam diferenças na mesma variável dependente (DV) entre as observações correspondentes a cada par dos quatro níveis do IV. $t$

Um caso semelhante surgiu apesar das correções de Bonferroni para comparações post-hoc aos pares através desta pergunta: as medidas repetidas da Anova são significativas, mas todas as comparações múltiplas com a correção de Bonferroni não são? Também existem casos mencionados anteriormente com um teste ligeiramente diferente em regressão múltipla:

Por que é possível obter estatística F significativa (p <0,001), mas testes t de regressão não significativos? : $p_F<.001,p_{\beta t}>.09$
Como uma regressão pode ser significativa, mas todos os preditores não são significativos?
- Na resposta do @ whuber , $p_F=.0003,p_{\beta t}>.09$

Aposto que, em casos como esses, alguns (mas não todos) os valores de comparações em pares (ou coeficientes de regressão 'testes de significância') devem estar razoavelmente próximos de se um teste omnibus correspondente puder atingir . Vejo que esse é o caso do primeiro exemplo de @ Glen_b, onde , , e a maior diferença pareada dá o menor . Este deve ser o caso em geral? Mais especificamente : $p$ $\alpha$ $p <\alpha$ $F_{(3,20)}=3.19$ $p_F=.046$ $p_t=.054$

Pergunta: Se um teste ANOVA produz um para o efeito de um IV politômico em um DV contínuo, qual o valor de mais baixo entre todos os testes duas amostras que comparam cada par dos níveis de IV? A significância pareada mínima poderia ser tão alta quanto ? $F$ $p_F=.05$ $p$ $t$ $p_t=.50$

_{Congratulo-me com respostas que abordam apenas esta questão específica . No entanto, para motivar ainda mais essa questão, elaborarei e colocarei algumas questões potencialmente retóricas. Sinta-se à vontade para abordar essas preocupações também e até ignorar a pergunta específica, se desejar, especialmente se a pergunta específica receber uma resposta definitiva.}

Significado: considere quão menos importante seria a diferença entre um e um se a significância estatística fosse julgada em termos contínuos da força da evidência contra a hipótese nula (a abordagem de Ron Fisher, eu acho?), em vez de em termos dicotômicos, acima ou abaixo de um limite para probabilidade aceitável de erro na escolha de rejeitar o atacado nulo. " hacking " é um problema conhecido que deve em parte sua notoriedade a uma vulnerabilidade desnecessária introduzida pela interpretação de $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ valores de acordo com a prática comum de dicotomizar a significância nos equivalentes de "bom o suficiente" e "não bom o suficiente". Se alguém dispuser essa prática e se concentrar na interpretação dos valores de como força da evidência contra o nulo em um intervalo contínuo, o teste abrangente pode ser um pouco menos importante quando se realmente se preocupa com comparações múltiplas em pares? Não é necessariamente inútil, pois qualquer melhoria razoavelmente eficiente na precisão estatística é desejável, mas ... se, por exemplo, o menor valor de da comparação pareada estiver necessariamente dentro de da ANOVA (ou outro teste omnibus) $p$ $p$ $.10$ $p$ valor, isso não torna o teste abrangente um pouco mais trivial, menos obrigatório e ainda mais enganoso (em conjunto com mal-entendidos preexistentes), especialmente se alguém não deseja controlar em vários testes? $\alpha$

Por outro lado, se existem dados de tal forma que um omnibus , mas todos em pares , isso não deve motivar ainda mais o omnibus e o teste de contraste ao longo da prática e da pedagogia? Parece-me que esta questão também deve informar os méritos relativos de julgar a significância estatística de acordo com uma dicotomia versus um continuum, em que o sistema interpretativo dicotômico deve ser mais sensível a pequenos ajustes quando as diferenças são "marginalmente significativas", enquanto nenhum sistema está protegido contra falhas na execução de um teste abrangente ou no ajuste de múltiplas comparações, se essa diferença / ajuste puder ser muito grande (por exemplo, em teoria. $p=.05$ $p>.50$ $p_t-p_F>.40)$

_{Outras complexidades opcionais a serem consideradas ou ignoradas - o que facilita a resposta e vale a pena :}

^{Qual seria o valor de s para s se, para , (por exemplo, ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Sensibilidade ao número de níveis em um IV politômico}
^{Sensibilidade à irregularidade na significância das diferenças aos pares (enquanto todos ) $p_t>p_F$}
- ^{a resposta da whuber indica que a inclusão de pequenas diferenças pode mascarar grandes diferenças.}
^{Diferenças entre as correções de vários testes omnibus para múltiplas comparações}
- ^{Consulte também: Corrigindo comparações múltiplas em uma ANOVA dentro de sujeitos / medidas repetidas; excessivamente conservador?}
- ^{Com vários IVs, parece que a multicolinearidade pode exacerbar esse problema .}
^{Casos restritos em que os dados atendem de maneira ideal a todos os pressupostos dos testes paramétricos clássicos}
- ^{Essa restrição pode ser importante para impedir que essa questão seja discutível.}

— Nick Stauner
fonte

Você pode esclarecer se os testes t em pares devem usar a mesma estimativa de variação de erro que o teste F omnibus (no exemplo de Glen eles não usam).

— Scortchi - Restabelece Monica

I entende-se um t-teste vulgar para a diferença em meios utilizando

, mas com

calculado como a raiz quadrada do erro quadrado médio ANOVAR. É o teste t par-hoc usual par-hoc enão seajusta a múltiplas comparações, ao contrário do HSD de Tukey. Ele incorpora informações de todos os grupos, mas é independente das diferenças nas médias dos grupos. t=(y¯1−y¯2)/(σ^1n1+1n2−−−−−−−√) $t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

σ^ $\hat\sigma$

— Scortchi - Restabelece Monica

Entendo (mais ou menos)! Eu estaria interessado principalmente em seguir o exemplo de @ Glen_b e não usar

, mas usando a primeira fórmula mencionada para evitar a incorporação de informações de todos os grupos. Isso não quer dizer que tenho uma forte preferência aqui ... mas parte da minha intenção original era apresentar uma variante do tema comum nessas perguntas: "Qual é o verdadeiro dano em ignorar informações além dos dois grupos específicos em questão para qualquer dado teste de duas amostras entre muitos? " Eu acho que esse tema vale a pena levar em consideração também nesta decisão. MSE−−−−√ $\sqrt{\text{MSE}}$

— Nick Stauner

@ Scortchi Eu incluí um exemplo na outra pergunta que aborda seu primeiro comentário (ou seja, onde os testes são feitos usando a variação de erro comum e df), embora todos os testes (comparações F e múltiplas) sejam feitos com um nível de significância bastante baixo (0,0025, não 0,05). Quando comparado aos testes t ordinários individuais de duas amostras, como está sendo solicitado por Nick S. aqui, mostra que é possível uma diferença bastante significativa na significância (neste caso,

para todos os testes t ordinários , ainda

). Acredito que em muitos grupos é possível ir muito além. pt>.05 $p_t>.05$

pF<0.002 $p_F<0.002$

— Glen_b -Replica Monica

Esbocei uma resposta para a primeira parte desta pergunta há alguns minutos em um comentário em stats.stackexchange.com/questions/83030/… .

— whuber

Assumindo s iguais [mas veja a nota 2 abaixo] para cada tratamento em um layout unidirecional, e que o DP agrupado de todos os grupos seja usado nos testes (como é feito nas comparações post hoc usuais), o máximo possível valor de para um teste é $n$ $t$ $p$ $t$ (aqui,denota ocdf). Assim, nenhumpode ser tão alto quanto. Curiosamente (e um tanto bizarra), aobrigado a não detém apenas para, mas para qualquer nível de significância exigimos para. $2\Phi(-\sqrt{2}) \approx .1573$ $\Phi$ $N(0,1)$ $p_t$ $0.5$ $.1573$ $p_F=.05$ $F$

A justificativa é a seguinte: Para um determinado intervalo de médias amostrais, , o maior possível estatística é atingida quando a metade do são em um extremo e a outra metade estão na outra. Isso representa o caso em que parece o mais significativo, dado que duas médias diferem no máximo . $\max_{i,j}|\bar y_i - \bar y_j| = 2a$ $F$ $\bar y_i$ $F$ $2a$

Assim, sem perda de generalidade, supor que de modo que neste caso limite. E, novamente, sem perda de generalidade, suponha que , pois sempre podemos redimensionar os dados para esse valor. Agora considere significa (onde é par pela simplicidade [mas veja a nota 1 abaixo]), temos $\bar y_.=0$ $\bar y_i=\pm a$ $MS_E=1$ $k$ $k$ . Definindomodo que, obtemos $F=\frac{\sum n\bar y^2/(k-1)}{MS_E}= \frac{kna^2}{k-1}$ $p_F=\alpha$ $F=F_\alpha=F_{\alpha,k-1,k(n-1)}$ . Quando todo osão(e ainda), cada um diferente de zeroestatística é, assim, $a =\sqrt{\frac{(k-1)F_\alpha}{kn}}$ $\bar y_i$ $\pm a$ $MS_E=1$ $t$ . Este é o menorvalormáximo depossível quando. $t=\frac{2a}{1\sqrt{2/n}} = \sqrt{\frac{2(k-1)F_\alpha}{k}}$ $t$ $F=F_\alpha$

Portanto, você pode apenas tentar casos diferentes de e , calcular e seus associados . Mas observe que, para um dado , está diminuindo em [mas veja a nota 3 abaixo]; além disso, como , ; então $k$ $n$ $t$ $p_t$ $k$ $F_\alpha$ $n$ $n\rightarrow\infty$ $(k-1)F_{\alpha,k-1,k(n-1)} \rightarrow \chi^2_{\alpha,k-1}$ . Observe que $t \ge t_{min} =\sqrt{2\chi^2_{\alpha,k-1}/k}$ tem média $\chi^2/k=\frac{k-1}k \chi^2/(k-1)$ e SD $\frac{k-1}k$ . Assim $\frac{k-1}k\cdot\sqrt{\frac2{k-1}}$ , independentemente de, e o resultado que afirmei no primeiro parágrafo acima é obtido a partir da normalidade assintótica. $\lim_{k\rightarrow\infty}t_{min} = \sqrt{2}$ $\alpha$

Porém, leva muito tempo para atingir esse limite. Aqui estão os resultados (calculados usando R) para vários valores de , usando : $k$ $\alpha=.05$

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Algumas pontas soltas ...

Quando k é impar: O máximo estatística ainda ocorre quando o são todos ; no entanto, teremos mais um em uma extremidade do intervalo que o outro, fazendo a média , e você pode mostrar que o fator na estatística é substituído por $F$ $\bar y_i$ $\pm a$ $\pm a/k$ $k$ $F$ . Isso também substitui o denominador de, tornando-o ligeiramente maior e, portanto, diminuindo. $k-\frac 1k$ $t$ $p_t$
Desigual s: $n$ O máximo é ainda conseguido com a , com os sinais dispostos de modo a equilibrar os tamanhos de amostra como quase igualmente quanto possível. Então, a estatística para o mesmo tamanho total da amostra será igual ou menor do que para dados balanceados. Além disso, a estatística máxima será maior porque será a com maior . Portanto, não podemos obter valores maiores de examinando casos desequilibrados. $F$ $\bar y_i = \pm a$ $F$ $N = \sum n_i$ $t$ $n_i$ $p_t$
Uma leve correção: eu estava tão concentrado em tentar encontrar o mínimo que negligenciei o fato de que estamos tentando maximizar , e é menos óbvio que um maior com menos df não será menos significativo que um menor um com mais df. No entanto, verifiquei que esse é o caso calculando os valores para até que o df seja alto o suficiente para fazer pouca diferença. Para o caso , não vi nenhum caso em que os valores de não aumentassem com $t$ $p_t$ $t$ $n=2,3,4,\ldots$ $\alpha=.05, k\ge 3$ $p_t$ . Note que a de modo a possível df são que obter grande rápido quando é grande. Ainda estou em terreno seguro com a reivindicação acima. Também testei , e o único caso em que olimite de foi excedido foi . $n$ $df=k(n-1)$ $k,2k,3k,\ldots$ $k$ $\alpha=.25$ $.1573$ $k=3,n=2$

— Russ Lenth
fonte