Qual é a diferença entre os escores Z e os valores p?

Nos algoritmos de motivo de rede, parece bastante comum retornar um valor p e um escore Z para uma estatística: "A rede de entrada contém X cópias do subgrafo G". Um subgráfico é considerado um motivo se satisfizer

valor p <A,
Escore Z> B e
X> C, para alguns A, B e C. definidos pelo usuário (ou definidos pela comunidade)

Isso motiva a pergunta:

Pergunta : Quais são as diferenças entre o valor p e o escore Z?

E a subquestão:

Pergunta : Existem situações em que o valor p e o escore Z da mesma estatística podem sugerir hipóteses opostas? As primeira e segunda condições listadas acima são essencialmente as mesmas?

hypothesis-testing p-value z-statistic

— Douglas S. Stones
fonte

Respostas:

Eu diria, com base na sua pergunta, que não há diferença entre os três testes. É no sentido de que você sempre pode escolher A, B e C para que a mesma decisão seja tomada independentemente do critério que você está usando. Embora você precise que o valor-p seja baseado na mesma estatística (ou seja, o escore Z)

Para usar o escore Z, assume-se que a média e a variância são conhecidas, e a distribuição é assumida normal (ou assintoticamente / aproximadamente normal). Suponha que o critério do valor-p seja de 5% usual. Então nós temos: $\mu$ $\sigma^2$

p = P r (Z > z) < 0.05 \to Z > 1.645 \to \frac{X - μ}{σ} > 1.645 \to X > μ + 1.645 σ

$p=Pr(Z>z)<0.05\rightarrow Z>1.645\rightarrow \frac{X-\mu}{\sigma}>1.645\rightarrow X > \mu+1.645\sigma$

Portanto, temos o triplo que todos representam os mesmos limites. $(0.05, 1.645, \mu+1.645\sigma)$

Observe que a mesma correspondência se aplicará ao teste t, embora os números sejam diferentes. O teste de duas caudas também terá uma correspondência semelhante, mas com números diferentes.

— probabilityislogic
fonte

Obrigado por isso! (e obrigado também aos outros atendentes).

— Douglas S. Stones

Um escore descreve seu desvio da média em unidades de desvio padrão. Não está explícito se você aceita ou rejeita sua hipótese nula. $Z$

Um valor- é a probabilidade de que, sob a hipótese nula, possamos observar um ponto tão extremo quanto sua estatística. Isso explicitamente indica se você rejeita ou aceita sua hipótese nula, considerando um tamanho de teste . $p$ $\alpha$

Considere um exemplo em que e a hipótese nula é . Então você observa . Seu escore é 5 (que apenas indica a que distância você se desvia da hipótese nula em termos de ) e seu valor é 5,733e-7. Para 95% de confiança, você terá um tamanho de teste e, como , rejeitará a hipótese nula. Mas, para qualquer estatística, deve haver alguns equivalentes e modo que os testes sejam os mesmos. $X\sim \mathcal{N}(\mu,1)$ $\mu=0$ $x_1=5$ $Z$ $\sigma$ $p$ $\alpha=0.05$ $p<\alpha$ $A$ $B$

— Gary
fonte

@ Gary - um valor-p não diz para você rejeitar ou não mais do que um Z-score. Eles são apenas números. É apenas a regra de decisão que determina a aceitação ou rejeição. Esta regra de decisão pode igualmente bem ser definida em termos de um Z-pontuação (por exemplo, a ou regra)

2 σ

$2\sigma$

3 σ

$3\sigma$

— probabilityislogic

@probabilityislogic Concordo com você. De fato, você pode construir algum teste com base no limiar de pontuação , mas não permite definir explicitamente um tamanho de teste no sentido clássico (isto é, em termos de probabilidade). Esse tipo de critério pode ser um problema se a sua distribuição tiver caudas grossas. Quando você constrói um teste, define explicitamente um tamanho de teste e, portanto, o valor- informa imediatamente se você aceita ou rejeita, que é o ponto que eu estava tentando enfatizar.

Z

$Z$

p

$p$

— Gary

@gary - na verdade não, pois o valor-p não faz referência a alternativas. Portanto, não pode ser usado para comparar diretamente alternativas. Por exemplo, considere vs . O valor p para permanece o mesmo . Então você diz "rejeitar o nulo", que significa "aceitar a alternativa" e declarar . Mas isso é um absurdo, ninguém faria isso, mas a regra do valor-p que você usa aqui faz isso. Dito de outra forma, a regra p-valor que você descreveu não é invariante com respeito ao que é chamado de "hipótese nula" (resolução vindo)

H_{0} : μ = 0

$H_0:\mu=0$

H_{A} : μ = - 1

$H_A:\mu=-1$

H_{0}

$H_0$

5 \times 10^{- 7}

$5\times 10^{-7}$

μ = - 1

$\mu=-1$

— probabilityislogic

(continuação) A resolução do aparente absurdo é que o valor-p não é um teste "absoluto", mas sim relativo, definido com uma hipótese alternativa implícita. Nesse caso, a alternativa implícita é . Você pode ver isso observando que, se eu calcular o valor p de , recebo , que é menor que o valor p de . Agora, neste exemplo, a "alternativa implícita" é fácil de encontrar por intuição, mas é muito mais difícil encontrar problemas mais complexos, nos quais parâmetros de incômodo ou estatística insuficiente.

H_{i m p} : μ = 5

$H_{imp}:\mu=5$

H_{A}

$H_A$

1 \times 10^{- 9}

$1\times 10^{-9}$

H_{0}

$H_0$

— probabilityislogic

@ Gary - o valor de p não é mais rigoroso apenas porque é uma probabilidade. É uma transformação monotônica de 1 para 1 do escore Z. qualquer "rigor" possuído pelo valor-p também é possuído pelo escore-Z. Embora se você estiver usando um teste de dois lados, o equivalente é o valor absoluto do escore Z. E para comparar com o nulo, você deve adotar uma abordagem "minimax": escolher a hipótese nítida mais suportada pelos dados e consistente com . A menos que você possa demonstrar como calcular

H_{1} : μ \neq 0

$H_1:\mu\neq 0$

H_{1}

$H_1$

P (X | μ \neq 1)

$P(X|\mu\neq 1)$

— probabilityislogic

$p$ Valor- indica quão improvável é a estatística. -score indica a que distância está da média. Pode haver uma diferença entre eles, dependendo do tamanho da amostra. $z$

Para amostras grandes, até pequenos desvios da média se tornam improváveis. Ou seja, o valor pode ser muito pequeno, mesmo para um baixo score. Por outro lado, para amostras pequenas, mesmo desvios grandes não são improváveis. Ou seja, um grande escore não significa necessariamente um pequeno valor . $p$ $z$ $z$ $p$

— SheldonCooper
fonte

se o tamanho da amostra for grande, o desvio padrão será pequeno; portanto, o escore Z será alto. Eu acho que você pode descobrir isso se você tentou um exemplo numérico.

— probabilityislogic

Na verdade não. Suponha que você faça uma amostra de N (0, 1). Então seu padrão será de aproximadamente 1, independentemente do tamanho da amostra. O que diminuirá é o erro padrão da média, e não o desvio padrão. Os valores p baseiam-se no SEM, não no padrão.

— SheldonCooper

O escore Z é (média observada) / (desvio padrão). Mas a média e o desvio padrão são da estatística observada, não da população da qual os componentes foram extraídos. Minha terminologia frouxa foi capturada aqui. No entanto, se você estiver testando a média, o desvio padrão apropriado no escore Z é o erro padrão, que fica menor na mesma taxa que o valor p.

— probabilityislogic