Duas definições de valor-p: como provar sua equivalência?

Estou lendo o livro de Larry Wasserman, All of Statistics , e atualmente sobre p-values (página 187). Deixe-me apresentar algumas definições (cito):

Definição 1 A função de potência de um teste com a região de rejeição é definida por O tamanho de um teste é definido como Diz-se que um teste tem nível se seu tamanho for menor ou igual a . $R$
$β (θ) = P_{θ} (X \in R)$ $\beta(\theta)=P_{\theta}(X\in R)$ $α = sup_{θ \in Θ_{0}} β (θ)$ $\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)$ $\alpha$ $\alpha$

Isso basicamente diz que $\alpha$ , o tamanho é a "maior" probabilidade de um erro do tipo I. O valor- $p$ é então definido via (cito)

Definição 2 Suponha que, para cada $\alpha\in(0,1)$ , tenhamos um teste de tamanho $\alpha$ com a região de rejeição $R_\alpha$ . Em seguida,
$p -value = inf {α : T (X^{n}) \in R_{α}}$ $p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\}$ que $X^n=(X_1,\dots,X_n)$ .

Para mim, isso significa: dado um específico, há uma região de teste e rejeição modo que . Para o valor- , simplesmente pego o menor de todos esses . $\alpha$ $R_\alpha$ $\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)$ $p$ $\alpha$

Pergunta 1 Se esse fosse o caso, eu poderia escolher claramente para arbitrariamente pequeno . Qual é a minha interpretação errada da definição 2, ou seja, o que isso significa exatamente? $\alpha = \epsilon$ $\epsilon$

Agora Wasserman continua e afirma que um teorema tem uma definição "equivalente" de valor- com a qual estou familiarizado (cito): $p$

Teorema Suponha que o tamanho teste seja da forma Então, onde é o valor observado de . $\alpha$
$reject H_{0} ⟺ T (X^{n}) \geq c_{α}$ $\text{reject } H_0 \iff T(X^n)\ge c_\alpha$ $p -value = sup_{θ \in Θ_{0}} P_{θ} (T (X^{n}) \geq T (x^{n}))$ $p\text{-value} = \sup_{\theta\in\Theta_0}P_{\theta}(T(X^n)\ge T(x^n))$ $x^n$ $X^n$

Então aqui está minha segunda pergunta:

Questão 2 Como posso realmente provar esse teorema? Talvez seja devido ao meu mal-entendido sobre a definição do valor- , mas não consigo descobrir. $p$

hypothesis-testing mathematical-statistics p-value

— matemática
fonte

É positivamente estranho que Wasserman defina poder como " ", já que o símbolo é quase universalmente usado para a taxa de erro do tipo II (ou seja, poder = 1- para quase qualquer outro autor que discute poder). Estou achando difícil imaginar uma escolha de notação capaz de gerar uma confusão ainda maior, exceto deliberadamente tentando causá-la.

β

$\beta$

β

$\beta$

β

$\beta$

— Glen_b -Reinstala Monica

Concordo que isso é estranho, Glen - no entanto, Casella e Berger fazem a mesma coisa e seu texto é, na minha opinião, o padrão-ouro da teoria estatística.

— Matt Brems

Respostas:

Temos alguns dados multivariados , extraídos de uma distribuição com algum parâmetro desconhecido . Observe que são resultados de amostra. $x$ $\mathcal{D}$ $\theta$ $x$

Queremos testar alguma hipótese sobre um parâmetro desconhecido , os valores de sob a hipótese nula estão no conjunto . $\theta$ $\theta$ $\theta_0$

No espaço do , podemos definir uma região de rejeição , e o poder dessa região é definido como . Portanto, a potência é calculada para um valor específico de como a probabilidade de que o resultado da amostra esteja na região de rejeição quando o valor de for . Obviamente, a potência depende da região e da escolhida . $X$ $R$ $R$ $\mathcal{P}_\bar{\theta}^R=P_\bar{\theta}(x \in R)$ $\bar{\theta}$ $\theta$ $x$ $R$ $\theta$ $\bar{\theta}$ $R$ $\bar{\theta}$

A definição 1 define o tamanho da região $R$ como o supremo de todos os valores de para em , portanto, apenas para valores de em . Obviamente, isto depende da região, de modo . $\mathcal{P}_\bar{\theta}^R$ $\bar{\theta}$ $\theta_0$ $\bar{\theta}$ $H_0$ $\alpha^R=sup_{\bar{\theta} \in \theta_0} \mathcal{P}_\bar{\theta}^R$

Como depende de , temos outro valor quando a região muda, e esta é a base para definir o valor p: altere a região, mas de maneira que o valor observado da amostra ainda pertença à região, por cada uma dessas regiões, calcular o como definido acima e tomar o ínfimo: . Portanto, o valor p é o menor tamanho de todas as regiões que contêm . $\alpha^R$ $R$ $\alpha_R$ $pv(x)=inf_{R |_{x \in R}} \alpha^R$ $x$

O teorema é então apenas uma 'tradução' dele, ou seja, o caso em que as regiões são definidas usando uma estatística e para um valor você define uma região como . Se você usar esse tipo de região no raciocínio acima, o teorema a seguir. $R$ $T$ $c$ $R$ $R=\{ x | T(x) \ge c \}$ $R$

EDITAR por causa dos comentários:

@ user8: para o teorema; se você definir regiões de rejeição como no teorema, uma região de rejeição de tamanho é um conjunto que se parece com para alguns . $\alpha$ $R^\alpha= \{X | T(X) \ge c_\alpha \}$ $c_\alpha$

Para encontrar o valor p de um valor observado , ou seja, você deve encontrar a menor região , ou seja, o maior valor de tal que ainda contém , o último (a região contém ) é equivalente (devido à maneira como as regiões são definidas) a dizer que , então você deve encontrar o maior tal que $x$ $pv(x)$ $R$ $c$ $\{X | T(X) \ge c \}$ $x$ $x$ $c \ge T(x)$ $c$ $\{X | T(X) \ge c \& c \ge T(x) \}$

Obviamente, o maior tal que deve ser e, em seguida, o conjunto supra se torna $c$ $c \ge T(x)$ $c = T(x)$ $\{ X | T(X) \ge c = T(x)\}=\{ X | T(X) \ge T(x)\}$

Muito obrigado pela sua resposta. Para a pergunta sobre a validação do teorema: De alguma forma, falta um over ?

inf

$\inf$

α

$\alpha$

— math

@ user8: eu adicionei um parágrafo no final da minha resposta, você vê o ponto com o mínimo agora?

Na definição 2, o valor- de uma estatística de teste é o maior limite inferior de todos modo que a hipótese é rejeitada para um teste de tamanho . Lembre-se de que quanto menor fizermos , menor será a tolerância ao erro do tipo I, portanto a região de rejeição também diminuirá. Então (de maneira muito informal), o valor- é o menor que podemos escolher que ainda nos permite rejeitar pelos dados que observamos. Não podemos escolher arbitrariamente um menor porque, em algum momento, $p$ $\alpha$ $\alpha$ $\alpha$ $R_\alpha$ $p$ $\alpha$ $H_0$ $\alpha$ $R_\alpha$ será tão pequeno que excluirá (ou seja, não conterá) o evento que observamos.

Agora, à luz do exposto, convido você a reconsiderar o teorema.

— heropup
fonte

Eu ainda estou um pouco confuso. Então, primeiro, na definição a estatística corrigida para todos ? Discordo da sua afirmação: "... em algum momento, será tão pequeno que excluirá (ou seja, não conterá) o evento que observamos". Perfeitamente bem, se é tão pequeno que não contém a amostra observada, não rejeitamos . Qual é o problema com isso? obrigado por sua ajuda / paciência

2

$2$

T

$T$

α

$\alpha$

R_{α}

$R_\alpha$

R_{α}

$R_\alpha$

H_{0}

$H_0$

— math

Sim. A estatística de teste é uma função fixa pré-determinada da amostra, onde "fixa" nesse sentido significa que a forma da função não muda para nenhum . O valor adquirido pode (e deve) depender da amostra. Sua afirmação "nós não rejeitamos " revela por que sua discordância está incorreta: por definição , compreende o conjunto de todos os valores pelos quais a estatística de teste leva à rejeição do nulo . É por isso que é rotulado --para de ejeção "R". Vou postar uma atualização na minha resposta para explicar com mais detalhes.

T

$T$

α

$\alpha$

H_{0}

$H_0$

R_{α}

$R_\alpha$

R

$R$

— heropup

Muito obrigado pela sua resposta rápida e antecipadamente pela sua versão atualizada. O que eu quis dizer foi o seguinte: Rejeitamos se , onde é a amostra observada. Digamos que sou muito extremo e escolha muito pequeno, de modo que, para a amostra fornecida, que significa apenas que NÃO rejeitamos . Portanto, um pequeno não é, a priori, uma coisa ruim. Claramente, em um ponto é tão pequeno que é muito, muito, muito improvável observar uma amostra pertencente a . Mais uma vez, obrigado pela sua paciência / ajuda. realmente apreciado!

H_{0}

$H_0$

T (x_{n}) \in R_{α}

$T(x_n)\in R_\alpha$

x_{n}

$x_n$

R_{α}

$R_\alpha$

T (x_{n}) \notin R_{α}

$T(x_n)\notin R_\alpha$

H_{0}

$H_0$

R_{α}

$R_\alpha$

R_{α}

$R_\alpha$

— math

A definição dada de valor-p exige explicitamente que a estatística de teste da amostra esteja na região de rejeição . Você não é livre para alterar essa parte da definição de valor-p.

— Glen_b -Reinstala Monica

@Glen_b Obrigado pelo comentário. De fato, meu comentário anterior viola a definição. Obrigado por apontar isso.

— math