Devo usar o teste t em dados altamente distorcidos? Prova científica, por favor?


15

Eu tenho amostras de um conjunto de dados altamente distorcido (parecido com uma distribuição exponencial) sobre a participação dos usuários (por exemplo: número de postagens), que têm tamanhos diferentes (mas não menos que 200) e quero comparar sua média. Para isso, estou usando testes t não pareados de duas amostras (e testes t com o fator de Welch, quando as amostras tinham variações diferentes). Como ouvi dizer que, para amostras realmente grandes, não importa que a amostra não seja distribuída normalmente.

Alguém, revisando o que fiz, disse que os testes que estou usando não eram adequados para meus dados. Eles sugeriram transformar minhas amostras em log antes de usar os testes t.

Eu sou iniciante, então me parece realmente confuso responder minhas perguntas de pesquisa com "métrica de log de participação".

Eles estão errados? Estou errado? Se estiverem errados, há um livro ou artigo científico que eu possa citar / mostrar a eles? Se eu estiver errado, qual teste devo usar?


11
O teste T tem a premissa de distribuição normal csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Você pode estar pensando que a distribuição t se aproxima do normal quando a amostra é suficientemente grande.
rdorlearn

6
O que significa "prova científica" neste contexto?
Glen_b -Reinstala Monica

11
Eu achava que o pressuposto era que todos os meios de todas as amostras possíveis de uma determinada população deveriam ser normais. Portanto, pelo CLT, também seria válido para o meu conjunto de dados.
Milena Araujo

11
prova científica = algo acadêmica relevante: um livro, um papel, etc
Milena Araújo

Respostas:


36

Eu não chamaria de 'exponencial' particularmente altamente distorcido. Seu log é distintamente inclinado para a esquerda, por exemplo, e sua distorção de momento é de apenas 2.

1) Usar o teste t com dados exponenciais n perto de 500 é bom :

a) O numerador da estatística de teste deve estar correto: se os dados são exponenciais independentes com escala comum (e não são substancialmente mais pesados ​​do que isso), então suas médias são distribuídas gama com parâmetro de forma igual ao número de observações. Sua distribuição parece muito normal para o parâmetro de forma maior que cerca de 40 (aproximadamente, dependendo da distância que você precisa na cauda).

Isso é capaz de prova matemática, mas matemática não é ciência. É possível verificar empiricamente via simulação, é claro, mas se você estiver errado sobre a exponencialidade, poderá precisar de amostras maiores. É assim que a distribuição das somas amostrais (e, portanto, as médias amostrais) dos dados exponenciais se parece quando n = 40:

insira a descrição da imagem aqui

Muito ligeiramente inclinado. Essa assimetria diminui conforme a raiz quadrada do tamanho da amostra. Então, em n = 160, é metade da inclinação. Em n = 640, é um quarto da inclinação:

insira a descrição da imagem aqui

Para que isso seja efetivamente simétrico, é possível inverter a média e plotá-la por cima:

insira a descrição da imagem aqui

Azul é o original, vermelho é invertido. Como você vê, eles são quase coincidentes.

-

n=40.

insira a descrição da imagem aqui

n=500

-

c) O que realmente importa, no entanto, é a distribuição de toda a estatística sob o valor nulo. A normalidade do numerador não é suficiente para fazer com que a estatística t tenha uma distribuição t. No entanto, no caso de dados exponenciais, isso também não é um problema:

insira a descrição da imagem aqui

n=40.n=500n=500

Observe, no entanto, que para dados realmente exponenciais, o desvio padrão será diferente apenas se as médias forem diferentes. Se a presunção exponencial for o caso, então, sob o nulo, não há necessidade especial de se preocupar com diferentes variações populacionais, pois elas ocorrem apenas sob a alternativa. Portanto, um teste t de igual variância ainda deve ser bom (nesse caso, a boa aproximação acima que você vê no histograma pode até ser um pouco melhor).


2) A obtenção de logs ainda pode permitir que você faça sentido, embora

registroλ1 1registroλ2λ1 1λ2

[Se você fizer esse teste nos logs, eu estaria inclinado a sugerir fazer um teste de variação igual nesse caso.]

Portanto - com a mera intervenção de talvez uma ou duas frases justificando a conexão, semelhante ao que eu tenho acima - você deve poder escrever suas conclusões não sobre o log da métrica de participação, mas sobre a própria métrica de participação.


3) Há muitas outras coisas que você pode fazer!

a) você pode fazer um teste adequado para dados exponenciais. É fácil obter um teste baseado na razão de verossimilhança. Por acaso, para dados exponenciais, você recebe um teste F de amostra pequena (com base em uma razão de médias) para essa situação no caso unilateral; o LRT bicaudal geralmente não teria uma proporção igual em cada cauda para amostras pequenas. (Isso deve ter uma potência melhor que o teste t, mas a potência para o teste t deve ser bastante razoável, e eu esperaria que não houvesse muita diferença nos tamanhos das amostras.)

b) você pode fazer um teste de permutação - baseie-o no teste t, se quiser. Portanto, a única coisa que muda é o cálculo do valor-p. Ou você pode fazer algum outro teste de reamostragem, como um teste baseado em auto-inicialização. Isso deve ter bom poder, embora dependa parcialmente de qual estatística de teste você escolhe em relação à distribuição que possui.

c) você pode fazer um teste não paramétrico baseado em classificação (como o Wilcoxon-Mann-Whitney). Se você presumir que, se as distribuições diferirem, elas diferem apenas por um fator de escala (apropriado para uma variedade de distribuições distorcidas, incluindo a exponencial), você poderá obter um intervalo de confiança para a proporção dos parâmetros da escala.

[Para esse propósito, sugiro trabalhar na escala de log (a mudança de localização nos logs é o log da mudança de escala). Ele não altera o valor-p, mas permite exponenciar a estimativa pontual e os limites de IC para obter um intervalo para a mudança de escala.]

Isso também deve ter um poder muito bom se você estiver na situação exponencial, mas provavelmente não tão bom quanto usar o teste t.


Uma referência que considera um conjunto consideravelmente mais amplo de casos para a alternativa de deslocamento de local (com heterogeneidade de variação e assimetria sob o nulo, por exemplo) é

Fagerland, MW e L. Sandvik (2009),
"Desempenho de cinco testes de localização de duas amostras para distribuições distorcidas com variações desiguais",
Contemporary Clinical Trials , 30 , 490–496

Geralmente, ele tende a recomendar o teste U da Welch (um dos testes considerados por Welch e o único que eles testaram). Se você não estiver usando exatamente a mesma estatística Welch, as recomendações podem variar um pouco (embora provavelmente não muito). [Observe que, se suas distribuições forem exponenciais, você estará interessado em uma alternativa de escala, a menos que faça registros ... nesse caso, você não terá variações desiguais.]


4
Ótima resposta! Eu estava realmente atordoado quanta informação você embalado em um único post
Christian Sauer

@Glen_b, esta é uma resposta incrível! Muito obrigado. Apenas mais uma pergunta: minhas amostras são do mesmo conjunto de dados. Desejo comparar amostras de usuários com a característica X e usuários com características Y. As amostras para usuários X estão em torno de ~ 500 e as amostras para usuários Y estão em torno de ~ 10000. Há uma enorme diferença de tamanho, mas parece não ter uma grande diferença em sua forma (observando os gráficos de densidade e probabilidade). Seria um problema usar testes t de qualquer maneira?
Milena Araujo

Quando você diz "enorme diferença de tamanho", está falando sobre o tamanho da amostra (10000 vs 500) ou sobre os valores típicos de cada grupo? (Aliás, são estas contínua ou discreta Como pequena são valores mínimos típicas para este tipo de dados são os logs semelhante em forma? - ou seja, é apenas uma mudança de escala que estamos considerando?)
Glen_b -Reinstate Monica

11
Você pode estar melhor com uma tabela para dados como esse. A informação crítica é que não é apenas discreta, mas que quase todos os valores estão no menor número de perguntas. Se você plotar um histograma, plote-o sem oscilações e verifique se todos os valores baixos estão separados (barras para cada um de 0, 1, 2, sem combiná-los). É melhor cortar a direita e espalhar a esquerda mais (onde quase todos os dados estão), desde que você deixe claro que há mais à direita se você cortar alguma coisa. Inclua informações sobre o que você está medindo e o que está tentando alcançar ... (ctd)
Glen_b -Reinstate Monica

11
@ScottH parte 1.c da minha resposta endereços isso explicitamente e olha para o quanto é importante no caso em discussão (distribuição aproximadamente exponencial no tamanho das amostras semelhantes)
Glen_b -Reinstate Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.