Posso fazer um teste se tiver pouca ou nenhuma variação em um grupo?

8

Eu tenho 4 grupos que estou comparando com um critério. Em um dos meus grupos, todos os participantes responderam o mesmo em todos os itens, ou seja, não há variação.

Como faço para lidar com isso na minha ANOVA?

Além disso, o que eu acho disso no teste em execução, comparando-o a um critério, pois não receberei nenhum termo de erro? Se eu incluir um participante que não tenho certeza de que estou incluindo no meu aluno, a variação não é totalmente uniforme com 1 observação diferente em 37, mas quando eu a executo, não é significativa porque a variação é muito pequena.

Entendo que não há nada que eu possa fazer em termos de computação. Estou perguntando como alguém lida com isso conceitualmente.

— Emily
fonte

2

Se você assumir que as variações são iguais para cada grupo, é possível obter uma estimativa de variação combinada e trabalhar com ela na construção de testes t para diferenças em pares. Mas isso não seria uma boa suposição, a menos que todas as variações fossem pequenas e a que tivesse valores idênticos fosse apenas uma ocorrência casual. Se você não pode fazer isso, não tem como estimar a variação para esse grupo e não pode fazer a análise de variação ou qualquer teste t envolvendo esse grupo como um dos pares que estão sendo comparados.

— Michael R. Chernick
fonte

(+1) Lembra-me de uma resposta de G Jay Kerns neste site para outra pergunta que acaba tendo uma distribuição de dados como o OP descreve.

— 21712 Andy

6

Aqui estão algumas observações para adicionar às respostas existentes. Eu acho que é importante pensar conceitualmente por que você está recebendo um grupo com variação zero.

Efeitos de piso e teto

Na minha experiência em psicologia, esse exemplo aparece com mais frequência quando há um piso ou teto em uma balança, e você tem alguns grupos que se enquadram no meio da balança e outros que caem ao extremo. Por exemplo, se sua variável dependente é a proporção de itens corretos em cinco perguntas, você pode achar que seu grupo "inteligente" fica 100% correto ou que seu "grupo clínico" fica 0% correto.

Nesse caso:

Você pode recorrer a testes não paramétricos ordinais se não tiver variação em um de seus grupos.
Embora possa não ajudá-lo após o fato, você também pode pensar conceitualmente sobre se seria melhor usar uma medida diferente que não tivesse efeitos no piso ou no teto. Em alguns casos, isso não importa. Por exemplo, o objetivo da análise pode ter sido mostrar que um grupo poderia executar uma tarefa e outro não. Em outros casos, convém modelar diferenças individuais em todos os grupos; nesse caso, você poderá precisar de uma escala que não sofra efeitos no piso ou no teto.

Tamanho de grupo muito pequeno

$n\lt5$

Nesse caso, você pode estar mais inclinado a colocar a falta de variação em risco e prosseguir com um teste t padrão.

— Jeromy Anglim
fonte

3

Há alguns anos, eu teria assinado totalmente a resposta de @Michael Chernick.

No entanto, percebi recentemente que algumas implementações do teste t são extremamente robustas à desigualdade de variâncias. Em particular, em R, a função t.testpossui um parâmetro padrão var.equal=FALSE, o que significa que ela não depende simplesmente de uma estimativa combinada da variação. Em vez disso, usa os graus aproximados de liberdade de Welch-Satterthwaite , que compensam as variações desiguais.

Vamos ver um exemplo.

set.seed(123)
x <- rnorm(100)
y <- rnorm(100, sd=0.00001)
# x and y have 0 mean, but very different variance.
t.test(x,y)
Welch Two Sample t-test

data:  x and y 
t = 0.9904, df = 99, p-value = 0.3244
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.09071549  0.27152946 
sample estimates:
    mean of x     mean of y 
 9.040591e-02 -1.075468e-06

Você pode ver que R alega executar o teste t de Welch e não o teste t de Student . Aqui, o grau de liberdade é reivindicado como 99, mesmo que cada amostra tenha tamanho 100, então aqui a função testa essencialmente a primeira amostra em relação ao valor fixo 0.

Você pode verificar se essa implementação fornece valores p corretos ( ou seja, uniformes) para duas amostras com variações muito diferentes.

Agora, isso era para um teste t de duas amostras. Minha própria experiência com a ANOVA é que ela é muito mais sensível à desigualdade de variações. Nesse caso, concordo plenamente com @ Michael Chernick.

— gui11aume
fonte

Se essa abordagem é essencialmente a mesma que comparar o primeiro grupo contra zero, por que não subtrair o valor observado do grupo invariável dos outros valores e compará-los com zero? Em outras palavras, basta fazer um teste t de uma amostra usando a única estimativa disponível de variabilidade. Isso pareceria conceitualmente mais simples do que usar o teste Welch-Scatterthwaite.

— Michael Lew

Absolutamente certo @ Michael Lew. Meu exemplo não foi muito didático, porque este é um caso extremo. O teste t de Welch é fornecido em casos limítrofes, como quando a amostra apresenta uma variação 4 vezes menor. Eu simplesmente queria destacar que a abordagem é consistente no limite.

— gui11aume

3

Sob certas circunstâncias, pode ser possível calcular um limite superior sobre qual poderia ser a variação para a população e depois usá-la em algo como um teste t com variações desiguais.

Por exemplo, se você perguntou a 10 alunos escolhidos aleatoriamente em uma escola de 100 alunos qual é o dia favorito em março e todos responderam no dia 15, você sabe que a maior variação que você poderia ter para a população estudantil é a variação para 10 valores de 15, 45 valores de 1 e 45 valores de 31, que é 204.6364.

Uma variação maior deve dificultar a detecção de uma diferença, de modo que um teste t usando esse limite superior da variação seja conservador na detecção de uma diferença. Isso significa que você teria certeza de uma diferença significativa resultante de um teste t usando o limite superior da variação, mas se você não encontrasse uma diferença significativa, não saberia muito, porque uma diferença significativa ainda seria consistente com algumas das variações menores possíveis.

É claro que pode não haver muitas situações em que você possa descobrir isso, mas pode ser possível.

— Jdub
fonte