Como testar a mediana de uma população?

Eu tenho uma amostra de 250 unidades. A distribuição é assimétrica. Quero testar uma hipótese de que a mediana da população é diferente de 3,5, por isso acho que um teste de uma amostra seria apropriado. Eu sei que o teste de Wilcoxon não é apropriado porque a distribuição não é simétrica. Um teste de sinal é apropriado para uso? Se não for, alguém pode recomendar outro teste?

hypothesis-testing median

— LeonRupnik
fonte

Você me perdeu na primeira linha, por várias razões. (1) Uma amostra não pode ter uma distribuição gaussiana (mas pode ter aproximadamente uma). (2) Uma característica de todas as distribuições gaussianas (e, portanto, de aproximações a elas) é a simetria . Você se contradiz. Ao descrever seus dados em seus próprios termos, e não no jargão estatístico, você comunicará melhor o que possui. Você também pode explicar, da maneira mais clara possível, o que realmente deseja realizar com seus dados? Que tipo de informação um "teste de amostra com base na mediana" pretende fornecer?

— whuber

A mediana da amostra é o que for; não haveria necessidade de testar isso. Talvez você queira testar se a mediana da população (da qual a amostra é obtida) é igual a ? Nesse caso, é importante saber como o valor de foi desenvolvido. É um resumo de algum outro conjunto de dados, talvez? Ou é algum número predeterminado, como um padrão de qualidade?

3.5

$3.5$

3.5

$3.5$

— whuber

É um número predeterminado

— LeonRupnik

"A distribuição é assimétrica, então quero testar uma hipótese se uma mediana de uma população for diferente de 3,5 ..." - Por que a assimetria em uma amostra afetaria qual hipótese é interessante?

$\:$ " É apropriado usar um teste de sinal? " - com certeza, mas (pelo menos na forma original) ele depende da continuidade - você precisa adaptá-lo se sua variável for discreta (você não diz em que consistem seus dados) .

— Glen_b -Reinstala Monica

Os dados é contínuo

— LeonRupnik

Sinopse

A contagem de dados que excede tem uma distribuição binomial com probabilidade desconhecida . Utilizar esta para conduzir um teste de binomial contra o alternativa . $3.5$ $p$ $p=1/2$ $p\ne 1/2$

O restante deste post explica o modelo subjacente e mostra como executar os cálculos. Ele fornece Rcódigo de trabalho para executá-los. Uma explicação detalhada da teoria subjacente ao teste de hipóteses é fornecida na minha resposta a "Qual é o significado dos valores p e valores t nos testes estatísticos?" .

O modelo estatístico

Assumindo que os valores são razoavelmente diversa (com alguns laços em ), em seguida, sob o seu hipótese nula, qualquer valor de amostragem aleatória tem um possibilidade de exceder (desde é caracterizada como o valor médio da população). Supondo que todos os valores foram aleatoriamente e independentemente amostrado, o número delas superior a , por conseguinte, ter um binomial de distribuição. Vamos chamar esse número de "contagem", . $3.5$ $1/2=50\%$ $3.5$ $3.5$ $250$ $3.5$ $(250,1/2)$ $k$

Por outro lado, se a população difere da mediana de , a probabilidade de um valor de amostragem aleatória superior a será diferente de . Esta é a hipótese alternativa. $3.5$ $3.5$ $1/2$

Encontrando um teste adequado

A melhor maneira de distinguir a situação nula de suas alternativas é observar os valores de que são mais prováveis sob o nulo e menos prováveis sob as alternativas. Estes são os valores de perto de de , igual a . Portanto, uma região crítica para o seu teste consiste em valores relativamente distantes de : próximo a ou próximo a . Mas a que distância devem estar para constituir evidência significativa de que não é a mediana da população? $k$ $1/2$ $250$ $125$ $125$ $0$ $250$ $125$ $3.5$

Depende do seu padrão de significância: isso é chamado de tamanho do teste , geralmente denominado . Sob a hipótese nula, não deve ser perto de - mas não mais do que - um chance de que vai ser na região crítica. $\alpha$ $\alpha$ $k$

Normalmente, quando não temos preconceitos sobre qual alternativa será aplicada - uma mediana maior ou menor que -, tentamos construir a região crítica para que haja metade dessa chance, , de que é baixo e o outro metade, , que é alto. Como sabemos a distribuição de sob a hipótese nula, essas informações são suficientes para determinar a região crítica. $3.5$ $\alpha/2$ $k$ $\alpha/2$ $k$ $k$

Tecnicamente, existem duas maneiras comuns de realizar o cálculo: calcule as probabilidades binomiais ou aproxime-as com uma distribuição normal.

Cálculo com probabilidades binomiais

Use a função de ponto percentual (quantil). Por Rexemplo, isso é chamado qbinome seria chamado como

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

A saída para é $\alpha=0.05$

109 141

Isso significa que a região crítica compreende todos os valores baixos de entre (e incluindo) e , juntamente com todos os valores altos de entre (e incluindo) e . Como verificação, podemos pedir para calcular a chance que existe nessa região quando o nulo for verdadeiro: $k$ $0$ $109$ $k$ $141$ $250$ Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

A saída é , muito próxima - mas não maior que-- . Como a região crítica deve terminar com um número inteiro, geralmente não é possível tornar esse tamanho de teste real exatamente igual ao tamanho nominal de teste , mas nesse caso os dois valores são muito próximos. $0.0497$ $\alpha$ $\alpha$

Cálculo com a aproximação normal

A média de um binomial de distribuição é e a sua variação é , fazendo o seu desvio padrão igual a $(250, 1/2)$ $250\times 1/2=125$ $250\times 1/2\times (1-1/2) = 250/4$ . Substituiremos a distribuição binomial por uma distribuição normal. A distribuição normal padrão temde sua probabilidade menor que, conforme calculado pelocomando $\sqrt{250/4}\approx 7.9$ $\alpha/2=0.05/2$ $-1.95996$ R

qnorm(alpha/2)

$0.05/2$ $+1.95996$ $k$ $1.95996$ $125$ $125 \pm 7.9\times 1.96 \approx 109.5, 140.5$

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

$k$ $109$ $141$ $p$ $1/2$ $0$ $1$ $\alpha$

Esse teste, porque não assume nada sobre a população (exceto que não tem muita probabilidade focada diretamente na sua mediana), não é tão poderoso quanto outros testes que fazem suposições específicas sobre a população. Se o teste rejeitar o nulo, não há necessidade de se preocupar com falta de energia. Caso contrário, é necessário fazer algumas trocas delicadas entre o que você está disposto a assumir e o que é capaz de concluir sobre a população.

— whuber
fonte

Como esse é praticamente um exemplo elaborado da sua resposta um pouco mais abstrata do " significado de um valor-p ", não apenas adotando a mesma filosofia, mas na maneira como sua resposta é estruturada, acho que você deve vinculá-la ("Um exemplo de como isso é aplicado na prática pode ser encontrado na minha resposta a ... ") na conclusão da sua resposta.

— Silverfish

@ Silver Obrigado; isso realmente passou pela minha cabeça. Eu pensei que poderia esperar um pouco primeiro. Entre outras coisas, não ficaria surpreso se algum membro da comunidade empreendedor desenterrasse um segmento duplicado, que eu gostaria de examinar mais de perto. Afinal, este é um material básico - muitas perguntas foram feitas sobre testes binomiais. A única alegação de que este tem que ser novo é que chegou aqui como uma necessidade de um teste de mediana - por isso não era tão obviamente um teste binomial desde o início - e a única alegação de que minha resposta precisa ser digna de a leitura está no seu esforço para explicar cada passo.

— whuber