Está tudo na família; mas também incluímos os sogros?

Suponha que eu tenha um experimento com dois ou mais fatores. Uma ANOVA geral é construída e, em seguida, seguimos com dois ou mais conjuntos de testes post hoc , digamos comparações múltiplas. Minha pergunta é sobre quão grande --- e quantas --- famílias devem ser usadas como base para ajustes de multiplicidade desses testes post hoc .

Um exemplo é o conjunto de dados warp-breaks do livro de Tukey na EDA. Existem dois fatores: wool(em dois níveis) e tension(em três níveis). A tabela ANOVA é:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

Claramente, a interação é necessária no modelo. Então decidimos fazer comparações dos níveis de cada fator, mantendo o outro fator fixo. Os resultados estão abaixo, com algumas anotações a serem mencionadas posteriormente:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Acho que existem práticas diferentes por aí, e me pergunto quais são as mais comuns e quais argumentos as pessoas apresentariam a favor ou contra cada abordagem. Ao calcular os valores de ajustados , devemos fazer ajustes de multiplicidade para ... $P$

cada uma das cinco famílias menores (T | A, T | B, ..., W | H) separadamente? (Nota: as últimas 3 famílias têm apenas um teste, portanto não haveria ajuste de multiplicidade para elas)
cada uma das famílias maiores (T, com 6 testes e W, com 3 testes) separadamente?
todos os testes considerados como uma grande família? $6+3=9$

Estou interessado tanto no que as pessoas costumam fazer (mesmo que não tenham pensado muito sobre isso) quanto no porquê (se tiver). Algumas coisas que posso mencionar são:

Existem 3 testes na tabela ANOVA. Não me lembro de ver alguém considerar um ajuste de multiplicidade nos testes ANOVA. Se for esse o caso, e você recomenda a opção (3), você está sendo inconsistente? $F$
Se tivéssemos feito um experimento um pouco menor, onde todos os testes são menos poderosos, é possível que a interação não tivesse sido significativa, levando a um número muito menor de comparações post hoc apenas de médias marginais. Além disso, os meios marginais poderiam ter SEs menores do que os meios celulares no experimento maior. Se, além disso, o ajuste de multiplicidade for menos conservador, poderíamos ter resultados mais "significativos" com menos dados do que teríamos com mais dados.

Interessado em ver o que as pessoas têm a dizer ...

multiple-comparisons post-hoc

— Russ Lenth
fonte

Ninguém respondeu ainda, então eu vou dar um tempo nisso.

É minha opinião (e eu adoraria ouvir os pensamentos de outras pessoas) que você deve estar se ajustando para os 9 testes completos nesse caso. Supondo que estamos usando a correção da taxa de erro familiar,

Estamos tirando conclusões simultaneamente de todos os 9 testes de uma só vez. Ou seja, escaneando a lista e vendo para encontrar algo significativo.
Para poder fazer isso, estamos considerando uma taxa de erro geral familiar de 5%. A alternativa seria corrigir individualmente os grupos para um FWER de 5%. Isso significaria que, ao interpretar, não poderíamos interpretar os testes juntos, e preferiríamos examinar os 6 primeiros testes e pensar que há uma chance de 5% de um falso positivo, e depois examinar cada um dos outros testes, por sua vez, sabendo que existe uma chance de 5% de um falso positivo para cada grupo . A IMO, a utilidade da correção de vários testes é que somos capazes de extrair inferência simultaneamente de vários testes ao mesmo tempo. Parece mais lógico que analisemos todos os 9 testes e saibamos que há uma chance de 5% de um falso positivo, em vez de ter que examiná-los separadamente, como não corrigir.
$F$
$F$

No geral, acho que se você estiver tirando inferência simultânea de um grupo, deverá considerar cada teste nesse grupo para correção. Caso contrário, o entendimento padrão da taxa de erro do grupo controlado não se mantém, e é bastante difícil acompanhar conceitualmente o que foi ajustado e o que não foi. Muito melhor, na minha opinião, responsabilizar todos os testes e manter a taxa de erro familiar em um determinado limite.

Se você tiver quaisquer refutações, eu adoraria ouvi-las, e tenho certeza que algumas pessoas vão discordar de algumas coisas aqui. Muito interessado em ouvir os pensamentos dos outros.

— Chris C
fonte

Obrigado. Bem pensado. Pergunta secundária: é possível obter o SAS para fazer isso? Acho que não, mas não sei muito sobre o SAS. É relevante porque acho que esse tipo de ajuste raramente é usado na prática.

— Russ Lenth

Infelizmente não sei muito sobre SAS, desculpe @rvl. Talvez alguém veja isso e ajude. Espero que mais pessoas participem dessa questão, é uma pergunta muito boa que as pessoas não pensam sobre isso com frequência.

— Chris C

tudo bem - eu estava pensando sobre o que é realmente possível fazer facilmente com o software existente. Se o consenso se resumir à opção 3, precisamos de suporte de software para ele!

— Russ Lenth

... mas agora isso pode ser feito em R. Veja a nova resposta que postei na pergunta relacionada, stats.stackexchange.com/questions/165125/… . Essa pergunta é o que me fez pensar sobre isso.

— Russ Lenth

Muito legal! Você é o mantenedor de lsmeans? Isso foi muito trabalho para essa pergunta!

— Chris C