Como realizar o teste t com amostras enormes?


11

Eu tenho duas populações, uma com N = 38.704 (número de observações) e outra com N = 1.313.662. Esses conjuntos de dados têm ~ 25 variáveis, todas contínuas. Eu calculei a média de cada um em cada conjunto de dados e calculei a estatística do teste usando a fórmula

t = diferença média / erro padrão

O problema é do grau de liberdade. Pela fórmula de df = N1 + N2-2, teremos mais liberdade do que a tabela pode suportar. Alguma sugestão sobre isso? Como verificar a estatística t aqui. Eu sei que o teste t é usado para manipular amostras, mas e se aplicarmos isso em amostras grandes?

Respostas:


20

chl já mencionou a armadilha de múltiplas comparações ao realizar simultaneamente 25 testes com o mesmo conjunto de dados. Uma maneira fácil de lidar com isso é ajustar o limite do valor p dividindo-o pelo número de testes (neste caso, 25). A fórmula mais precisa é: Valor de p ajustado = 1 - (valor de 1 - p) ^ (1 / n). No entanto, as duas fórmulas diferentes derivam quase o mesmo valor de p ajustado.

Há outro problema importante no seu exercício de teste de hipóteses. Você certamente encontrará um erro do tipo I (falso positivo), no qual descobrirá algumas diferenças realmente triviais que são extremamente significativas no nível de 99,9999%. Isso ocorre porque quando você lida com uma amostra de tamanho tão grande (n = 1.313.662), recebe um erro padrão muito próximo de 0. Isso ocorre porque a raiz quadrada de 1.313.662 = 1.146. Então, você dividirá o desvio padrão por 1.146. Em resumo, você capturará pequenas diferenças que podem ser completamente irrelevantes.

Eu sugiro que você se afaste dessa estrutura de teste de hipóteses e, em vez disso, conduza uma análise do tipo Tamanho do efeito. Dentro dessa estrutura, a medida da distância estatística é o desvio padrão. Ao contrário do erro padrão, o desvio padrão não é artificialmente reduzido pelo tamanho da amostra. E essa abordagem fornecerá uma melhor noção das diferenças materiais entre seus conjuntos de dados. O Tamanho do Efeito também é muito mais focado no intervalo de confiança em torno da diferença média média, que é muito mais informativa do que o teste de hipóteses, focado na significância estatística que geralmente não é significativa. Espero que ajude.


4
+1 por trazer as idéias principais: (1) podemos garantir que os meios diferirão quando os conjuntos de dados forem tão grandes e (2) alguma outra análise provavelmente será mais apropriada e útil. Mas, como não sabemos o objetivo da análise, devemos ser cautelosos ao fazer recomendações específicas.
whuber

Graças à Gaetan, eu te esqueci. Acho que o que eu retiro disso é que o desvio padrão é uma medida melhor quando você tem amostras grandes como a minha. Por favor, deixe-me saber se eu perdi alguma coisa.
ayush Biyani

11
ayush ... Você está certo. É basicamente isso. E isso ocorre porque seu erro padrão se tornará muito pequeno (devido ao grande tamanho da amostra). Isso, por sua vez, superestima a distância estatística entre seus grupos de teste e controle. Além disso, faz com que você se depare com um erro do tipo I (descubra uma diferença que é tão pequena que é irrelevante). Esse é um problema comum no teste de hipóteses com amostras grandes.
Sympa

14

A distribuição t do aluno se aproxima cada vez mais da distribuição normal padrão à medida que os graus de liberdade aumentam. Com 1313662 + 38704-2 = 1352364 graus de liberdade, a distribuição t será indistinguível da distribuição normal padrão, como pode ser visto na figura abaixo (a menos que você esteja nas caudas muito extremas e esteja interessado em distinguindo valores de p absolutamente minúsculos de valores ainda menores). Portanto, você pode usar a tabela para a distribuição normal padrão em vez da tabela para a distribuição t .

texto alternativo


Gente, obrigado pela resposta. Eu tenho um dado para analisar. Como anexar dados a isso? Muito a pedir-lhe pessoas .. Agradecemos antecipadamente. Esperando uma resposta rápida.
ayush Biyani

4
Hã? Você disse na pergunta que já calculou a estatística t, e chl forneceu código R de amostra. O que mais você quer? A propósito, não tenho certeza se você tem o direito de esperar ou solicitar uma resposta rápida; nós não somos pagos por isso, você sabe.
onestop 30/10/10

11
@ayush Para a sua pergunta anterior, forneço uma resposta completa à sua pergunta (IMHO) - depois dei um seguimento aos seus comentários antes de parar quando pensei que você estava fazendo outra pergunta que não é o objetivo da opção de comentário aqui . Portanto, sugiro que você indique claramente se sua pergunta está relacionada à consideração teórica ou à análise de dados aplicada (no último caso, dê-nos um exemplo reproduzível) ou separe suas perguntas. BTW, você ainda tem a opção de aceitar respostas que achar úteis (novamente, escreva sua pergunta original, não os comentários a seguir).
chl

2
@ayush Ah, e eu apenas percebo que você nunca vota nenhuma das respostas que foram fornecidas a você (embora você tenha representante suficiente agora).
chl

@ chl-- yeah..even eu percebo essa minha falha e retificarei isso com certeza nos posts que estão por vir .. Obrigado por apontar isso .. Considere-me por alguns dias um amador ingênuo ..
ayush biyani

10

tznn>30nz

Só para ter certeza, como seu conjunto de dados inclui 25 variáveis, você está fazendo 25 testes? Se for esse o caso, você provavelmente precisará corrigir várias comparações para não aumentar a taxa de erro do tipo I (consulte o tópico relacionado neste site).

BTW, o software R forneceria os valores-p que você procura, sem necessidade de confiar nas tabelas:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.