Estou deixando este parágrafo para que os comentários façam sentido: provavelmente a suposição de normalidade nas populações originais é muito restritiva e pode ser perdida ao se concentrar na distribuição da amostra, e graças ao teorema do limite central, especialmente para amostras grandes.
A aplicação do teste é provavelmente uma boa ideia se (como é geralmente o caso) você não conhece a variação da população e, em vez disso, está usando as variações da amostra como estimadores. Observe que a suposição de variações idênticas pode precisar ser testada com um teste F de variações ou um teste de Lavene antes de aplicar uma variação combinada - eu tenho algumas notas no GitHub aqui .t
Como você mencionou, a distribuição t converge para a distribuição normal à medida que a amostra aumenta, pois esse gráfico R rápido demonstra:
Em vermelho, está o pdf de uma distribuição normal e, em roxo, é possível ver a mudança progressiva nas "caudas gordas" (ou caudas mais pesadas) do pdf da distribuição , à medida que os graus de liberdade aumentam até que finalmente se misture com o enredo normal.t
Portanto, aplicar um teste z provavelmente seria bom para amostras grandes.
Resolvendo os problemas com minha resposta inicial. Obrigado, Glen_b, por sua ajuda no OP (os prováveis novos erros de interpretação são inteiramente meus).
- A ESTATÍSTICA SEGUE NA DISTRIBUIÇÃO SOB A SUPOSIÇÃO DE NORMALIDADE:
Deixando de lado as complexidades nas fórmulas para uma amostra versus duas amostras (emparelhadas e não emparelhadas), a estatística t geral focada no caso de comparar uma média amostral com uma média populacional é:
teste t = X¯- μsn√= X¯- μσ/ n√s2σ2---√=X¯-μσ/ n--√∑nx = 1( X- X¯)2n - 1σ2--------√(1)
Xμσ2
- ( 1 ) ∼ N( 1 , 0 )
- ( 1 )s2/ σ2n - 1~ 1n - 1χ2n - 1( n - 1 ) s2/ σ2∼ χ2n - 1
- O numerador e o denominador devem ser independentes.
estatística t ∼ t ( df= n - 1 )
- TEOREMA DO LIMITE CENTRAL:
A tendência para a normalidade da distribuição amostral da amostra significa que o tamanho da amostra aumenta pode justificar a suposição de uma distribuição normal do numerador, mesmo que a população não seja normal. No entanto, ele não influencia as outras duas condições (distribuição quadrada do chi do denominador e independência do numerador do denominador).
Mas nem tudo está perdido, neste post é discutido como o teorema de Slutzky suporta a convergência assintótica em direção a uma distribuição normal, mesmo que a distribuição chi do denominador não seja alcançada.
- ROBUSTEZA:
No artigo "Um olhar mais realista sobre as propriedades de robustez e erro de tipo II do teste t para desvios da normalidade populacional", de Sawilowsky SS e Blair RC no Psychological Bulletin, 1992, vol. 111, No. 2, 352-360 , onde eles testaram distribuições menos ideais ou mais "do mundo real" (menos normais) para energia e erros do tipo I, as seguintes afirmações podem ser encontradas: "Apesar da natureza conservadora em relação ao Tipo No erro do teste t para algumas dessas distribuições reais, houve pouco efeito nos níveis de potência para a variedade de condições de tratamento e tamanhos de amostra estudados. Os pesquisadores podem facilmente compensar a leve perda de potência selecionando um tamanho de amostra um pouco maior " .
" A visão predominante parece ser a de que o teste t de amostras independentes é razoavelmente robusto, no que diz respeito a erros do tipo I, com uma forma de população não gaussiana, desde que (a) o tamanho da amostra seja igual ou quase igual, (b) amostra os tamanhos são razoavelmente grandes (Boneau, 1960, menciona tamanhos de amostra de 25 a 30) e (c) os testes são bicaudais em vez de unicaudais. Note também que, quando essas condições são atendidas, as diferenças entre alfa nominal e alfa real ocorrem, discrepâncias são geralmente de natureza conservadora e não liberal. "
Os autores enfatizam os aspectos controversos do tópico, e estou ansioso para trabalhar em algumas simulações baseadas na distribuição lognormal, conforme mencionado pelo professor Harrell. Eu também gostaria de fazer algumas comparações de Monte Carlo com métodos não paramétricos (por exemplo, teste U de Mann – Whitney). Portanto, é um trabalho em andamento ...
SIMULAÇÕES:
Aviso Legal: O que segue é um desses exercícios para "provar a mim mesmo" de uma maneira ou de outra. Os resultados não podem ser usados para fazer generalizações (pelo menos não por mim), mas acho que posso dizer que essas duas (provavelmente falhas) simulações de MC não parecem desanimador quanto ao uso do teste t nas circunstâncias descrito.
Erro tipo I:
Na questão dos erros do tipo I, executei uma simulação de Monte Carlo usando a distribuição Lognormal. Extrair o que seria considerado amostras maiores (n = 50) muitas vezes a partir de uma distribuição lognormal com parâmetros μ = 0 e σ= 1, Calculei os valores te valores de p que resultariam se comparássemos as médias dessas amostras, todas provenientes da mesma população e do mesmo tamanho. O lognormal foi escolhido com base nos comentários e na assimetria marcada da distribuição à direita:
Definir um nível de significância de 5 % a taxa de erro real do tipo I teria sido 4,5 %, não é tão ruim...
De fato, o gráfico da densidade dos testes t obtidos parecia se sobrepor ao pdf real da distribuição t:
A parte mais interessante foi examinar o "denominador" do teste t, a parte que deveria seguir uma distribuição qui-quadrado:
( n - 1 ) s2/ σ2= 98( 49( SD2UMA+ SD2UMA) ) / 98( eσ2- 1 )e2 μ + σ2
.
Aqui estamos usando o desvio padrão comum, como nesta entrada da Wikipedia :
SX1X2= ( n1- 1 )S2X1+ ( n2- 1 )S2X2n1+ n2- 2----------------------√
E, surpreendentemente (ou não), o enredo era extremamente diferente do pdf qui-quadrado sobreposto:
Erro e energia do tipo II:
A distribuição da pressão arterial é possível log-normal , o que é extremamente útil para configurar um cenário sintético no qual os grupos de comparação são separados em valores médios por uma distância de relevância clínica, digamos em um estudo clínico que testa o efeito da pressão arterial medicamento com foco na PA diastólica, um efeito significativo pode ser considerado uma queda média10 mmHg (um DP de aproximadamente 9 mmHg foi escolhido):
A execução de testes t de comparação em uma simulação de Monte Carlo semelhante à dos erros do tipo I entre esses grupos fictícios e com um nível de significância de 5 % acabamos com 0,024 % erros do tipo II, e um poder de apenas 99 %.
O código está aqui .