Calcular valor p no bootstrap emparelhado

Encontrei um novo artigo do grupo de PNL de Berkeley sobre testes estatísticos, Uma Investigação Empírica de Significância Estatística na PNL .

Existe um pseudocódigo para calcular um valor-p no artigo, basicamente, a ideia é que o conjunto de amostras de seja amostrado com a substituição dos dados . Então $x_1,x_2,...,x_N$ $x$

$\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ , em que é um ganho métrico. $\delta(x_i)$

Eu pude entender a fórmula para calcular o valor-p no artigo de Koehn, testes de significância estatística para avaliação de tradução automática , na qual:

$\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N$ , onde e são o ganho de métrica para o sistema de e respectivamente. $\delta_a$ $\delta_b$ $a$ $b$

Existe alguma explicação ou de referência para a fórmula . Os autores também observaram que se a média de é e é simétrica, as duas fórmulas acima são equivalentes. $\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ $\delta(x_i)$ $\delta(x)$ $\delta(x_i)$

hypothesis-testing bootstrap p-value

— Ke Tran
fonte

Até onde eu entendo, olhando para a seção 2, os autores parecem explicar sua lógica para o teste de autoinicialização da seguinte maneira:

"o foi amostrado a partir de , portanto, a média não será zero, como exige a hipótese nula; a média será em torno de ... A solução é uma re-centralização a média - queremos saber com que frequência faz mais do que melhor que o esperado.Esperamos que ele supere por . Portanto, contamos quantos têm batendo por pelo menos . " $x_i$ $x$ $\delta(x_i)$ $\delta(x)$ $A$ $\delta(x)$ $B$ $\delta(x)$ $x_i$ $A$ $B$ $\delta(x)$

Os autores desejam testar se o ganho é diferente de zero, para que escrevam o valor p como , que pode ser reescrito como ; porque o RHS da desigualdade se torna , que é o eles estavam tentando rejeitar. $\delta(x_i) < 2\delta(x)$ $0 < 2\delta(x) - \delta(x_i)$ $E[\delta(x_i)]=\delta(x)$ $\delta(x)$ $H_0$

— Sameer
fonte