Teste T usando apenas dados de resumo em um gráfico de caixas


8

Eu tenho o resumo de 5 números (min, Q1, mediana, Q3, max) de dois boxplots e queria testar se as médias dos grupos nos dois boxplots eram significativamente diferentes.

Eu gostaria de fazer isso usando um teste t, mas não tenho os dados disponíveis para mim (apenas o resumo de 5 números).

Existe uma maneira de testar as diferenças da média? Ou uma aproximação grosseira a um teste t? Além disso, eu sei o tamanho da amostra e a média.


Você conhece o desvio padrão também?
Glen_b -Reinstala Monica

Não, eu não. Se eu soubesse que, em seguida, eu não teria este problema :)

Existe uma aproximação ao desvio padrão que eu posso usar?

Ambos os grupos são de amostra de tamanho 30.

Por favor, edite as informações relevantes na sua pergunta
Glen_b -Reinstate Monica

Respostas:


10

Como você tem as médias da amostra e sua hipótese se refere às médias da população, presumi que você definitivamente desejará usar as médias da amostra a seguir.

Com algumas suposições distributivas, você certamente pode chegar a algum lugar.

  1. Se o tamanho da amostra for muito grande, você poderá assumir uma distribuição para dimensionar os IQRs com uma estimativa de e apenas tratá-la como um teste z. (n = 30 não é realmente "grande")σ

    por exemplo, se você assumir a normalidade, o intervalo interquartil da população é de cerca de 1,35 ; portanto, se a amostra for grande o suficiente para que o IQR da população seja estimado com pouco erro, você pode estimar e fazer um teste eficaz no normal.σσσ

    Neste caso, se você não assumir variâncias iguais, então você obtém , em seguida, calcular ~ σ 2 D = ~ σ 2 1 / n 1 + ~ σ 2 2 / n 2 e, em seguida, levá z = ˉ x 1 - ˉ x 2σi~=IQRi/1.35σ~D2=σ~12/n1+σ~22/n2e procure tabelas z.z=x¯1x¯2σ~D

    [Como verificação, fiz uma simulação em que geramos amostras normais do tamanho 30 (com variação igual, embora não o tenha assumido no cálculo), e o teste é anticonservador (ou seja, a taxa de erro do tipo I é mais alto que o nominal), então, quando você tenta fazer um teste de 5%, parece que você está realmente chegando a algo em torno de 6,8% (a aproximação provavelmente será um pouco pior se as variações diferirem). Se você pode tolerar isso, provavelmente está bem. É claro que você poderia diminuir o nível de significância para compensar o anticonservadorismo, mas eu estaria inclinado a morder a bala e tentar a opção 2. Uma vez que os tamanhos das amostras atinjam mais ou menos 200, isso funciona muito bem.]

  2. Se o tamanho da amostra não for grande, você ainda poderá fazer alguma coisa, mas a distribuição da estatística dependerá do método exato pelo qual os quartis foram calculados, bem como dos tamanhos específicos da amostra.

    Em particular, você pode

    σ2

    b. não faça uma suposição de variância igual e use uma estatística de teste mais semelhante a uma estatística do tipo Welch-Satterthwaite.

    No primeiro caso, a distribuição da estatística de teste pode ser obtida de maneira bastante simples, mediante simulação da distribuição assumida. (No segundo caso, as coisas são um pouco mais complicadas, porque a distribuição dependerá da maneira como os spreads diferem - mas algo ainda pode ser feito.)

Se você não está preparado para fazer alguma suposição distributiva, ainda pode limitar o desvio padrão da amostra e obter limites superior e inferior na estatística t; no entanto, os limites podem não ser muito estreitos.


Se você não tivesse as médias amostrais, poderia usar as medianas em um análogo do teste t. Se você está assumindo normalidade (ou mesmo simetria e existência de médias), as medianas estimam as respectivas médias; no entanto, como precisamos lidar apenas com a diferença de meios, suposições substancialmente mais fracas serão suficientes para que isso funcione como um teste.

Nesse caso, você pode obter valores críticos (ou mesmo valores p) via simulação com bastante facilidade, mas a distribuição nula sob uma suposição normal é bem próxima da distribuição t; uma aproximação bastante decente do valor-p pode ser obtida das tabelas t, mas graus adequados de liberdade são substancialmente mais baixos do que os obtidos em um teste t (quase a metade!) - e a estatística do teste deve ser escalada também, uma vez que as variações não correspondem exatamente.

Isso não terá um poder especialmente bom no normal, mas terá uma boa robustez a desvios da normalidade.

Como exemplo, para uma estatística deste formulário:

t=x~1x~2q12/n+q22/n

xi~iqiin

insira a descrição da imagem aqui

tct40c=1.064

insira a descrição da imagem aqui

cn


σ

Você está assumindo variações iguais?
Glen_b -Reinstala Monica

Fiz uma edição na opção 1, não assumindo variações iguais, fornecendo alguns detalhes, e fiz um pequeno estudo de simulação em n = 30.
Glen_b -Reinstate Monica

Também foram adicionados alguns comentários sobre o que pode ser feito se você não tiver os meios.
Glen_b -Reinstala Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.