Teste de hipótese e distância total da variação vs. divergência Kullback-Leibler

Na minha pesquisa, encontrei o seguinte problema geral: tenho duas distribuições e no mesmo domínio e um grande (mas finito) número de amostras dessas distribuições. As amostras são distribuídas de forma independente e idêntica a partir de uma dessas duas distribuições (embora as distribuições possam estar relacionadas: por exemplo, pode ser uma mistura de e alguma outra distribuição). A hipótese nula é de que as amostras provêm de ; a hipótese alternativa é que amostras vêm de . $P$ $Q$ $Q$ $P$ $P$ $Q$

Estou tentando caracterizar o tipo I e tipo II erros no teste da amostra, conhecendo as distribuições e . Particularmente, eu estou interessado em delimitadora um erro dada a outro, além do conhecimento de e . $P$ $Q$ $P$ $Q$

Fiz uma pergunta sobre math.SE sobre a relação entre a distância total da variação entre e e o teste de hipóteses, e recebi uma resposta que aceitei. Essa resposta faz sentido, mas ainda não fui capaz de compreender o significado mais profundo por trás da relação entre teste de distância e hipótese de variação total no que se refere ao meu problema. Assim, eu decidi recorrer a este fórum. $P$ $Q$

Minha primeira pergunta é: a variação total está vinculada à soma das probabilidades de erros do tipo I e do tipo II, independentemente do método de teste de hipóteses empregado? Em essência, desde que haja uma probabilidade diferente de zero de que a amostra possa ter sido gerada por qualquer uma das distribuições, a probabilidade de pelo menos um dos erros deve ser diferente de zero. Basicamente, você não pode escapar da possibilidade de seu testador de hipóteses cometer um erro, não importa quanto processamento de sinal você faça. E a variação total limita essa possibilidade exata. Meu entendimento está correto?

Há também outra relação entre os erros do tipo I e II e as distribuições de probabilidade subjacentes e : a divergência de KL . Assim, minha segunda pergunta é: a divergência de KL é apenas aplicável a um método específico de teste de hipóteses (parece surgir muito em torno do método da razão de verossimilhança de log) ou pode-se aplicá-la geralmente em todos os métodos de teste de hipóteses? Se é aplicável a todos os métodos de teste de hipóteses, por que parece ser tão diferente do limite da Variação Total? Ele se comporta de maneira diferente? $P$ $Q$

E a minha pergunta subjacente é: existe um conjunto prescrito de circunstâncias em que devo usar um ou outro, ou é apenas uma questão de conveniência? Quando o resultado derivado usando um limite deve ser mantido usando o outro?

Peço desculpas se essas perguntas são triviais. Eu sou um cientista da computação (então isso parece um problema sofisticado de correspondência de padrões para mim :).) Conheço a teoria da informação razoavelmente bem e também tenho formação em teoria da probabilidade. No entanto, estou apenas começando a aprender todas essas coisas de teste de hipóteses. Se necessário, farei o possível para esclarecer minhas perguntas.

— MBM
fonte

Respostas:

Literatura: A maioria das respostas que você precisa está certamente no livro de Lehman e Romano . O livro de Ingster e Suslina trata de tópicos mais avançados e pode fornecer respostas adicionais.

Resposta: No entanto, as coisas são muito simples: (ou ) é a distância "verdadeira" a ser usada. Não é conveniente para computação formal (especialmente com medidas de produto, ou seja, quando você possui uma amostra de tamanho ) e outras distâncias (limites superiores de ) podem ser usadas. Deixe-me dar os detalhes. $L_1$ $TV$ $n$ $L_1$

Desenvolvimento: Vamos denotar por

o erro mínimo do tipo II com erro do tipo I para e o nulo e a alternativa. $g_1(\alpha_0,P_1,P_0)$ $\leq\alpha_0$ $P_0$ $P_1$
a soma doserros possíveis mínimos dotipo I + tipo II, com e o nulo e a alternativa. $g_2(t,P_1,P_0)$ $t$ $(1-t)$ $P_0$ $P_1$

Esses são os erros mínimos que você precisa analisar. As igualdade (limites não inferiores) são dadas pelo teorema 1 abaixo (em termos de distância (ou distância da TV, se você escolher)). As desigualdades entre a distância e outras distâncias são dadas pelo Teorema 2 (observe que, para limitar os erros, você precisa dos limites superiores de ou ). $L_1$ $L_1$ $L_1$ $TV$

O que deve ser usado então é uma questão de conveniência, porque geralmente é mais difícil de calcular do que Hellinger, Kullback ou . O principal exemplo dessa diferença aparece quando e são medidas do produto que surgem no caso em que você deseja testar versus com uma amostra de tamanho iid . Nesse caso, $L_1$ $\chi^2$ $P_1$ $P_0$ $P_i=p_i^{\otimes n}$ $i=0,1$ $p_1$ $p_0$ $n$ e os outros são obtidos facilmente a partir de (o mesmo para e ), mas você não pode fazer isso com ... $h(P_1,P_0)$ $h(p_1,p_0)$ $KL$ $\chi^2$ $L_1$

Definição: A afinidade de entre as duas medidas e é definido como . $A_1(\nu_1,\nu_0)$ $\nu_1$ $\nu_2$

{UMA}_{1 1} (ν_{1 1}, ν_{0 0}) = \int min (d ν_{1 1}, d ν_{0 0})

$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0)$

Teorema 1 Se (metade da TV dist), então $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$

. $2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$
$g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
$g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

Eu escrevi a prova aqui .

Teorema 2 Para distribuições de probabilidade e : $P_1$ $P_0$

\frac{1 1}{2} | P_{1 1} - P_{0 0} |_{1 1} \leq h (P_{1 1}, P_{0 0}) \leq \sqrt{K (P_{1 1}, P_{0 0})} \leq \sqrt{χ^{2} (P_{1 1}, P_{0 0})}

$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$

Esses limites se devem a vários estatísticos bem conhecidos (LeCam, Pinsker, ...). é a distância de Hellinger, divergência KL e a divergência qui-quadrado. Eles são todos definidos aqui . e as provas desses limites são dadas (outras coisas podem ser encontradas no livro de Tsybacov ). Há também algo que é quase um limite inferior de por Hellinger ... $h$ $K$ $\chi^2$ $L_1$

— Robin Girard
fonte

Obrigado pela resposta, agora estou tentando digeri-lo. No meu problema, permiti o erro Tipo I. Eu também tenho as duas distribuições

. Eu sei que TV entre eles (bem como KL). Então, o que você está dizendo é que a TV oferece um limite inferior mais apertado ao erro Tipo II do que o KL, o que significa que eu deveria usar a TV para minha análise se desejar um limite mais baixo possível?

P_{0}

$P_0$

P_{1}

$P_1$

— MBM

E obrigado pela sugestão do livro de Lehmann e Romano, parece muito útil e não muito exagerado. Além disso, minha biblioteca possui uma cópia! :)

— MBM

A_{1}

$A_1$

g_{1}

$g_1$

g_{2}

$g_2$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1 1}{\sqrt{2 π}} | \frac{\exp (- x^{2} / 2 σ_{1 1}^{2})}{σ_{1 1}} - \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}} | d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\left|\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1}-\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right|dx$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1 1}{\sqrt{2 π}} min (\frac{\exp (- x^{2} / 2 σ_{1 1}^{2})}{σ_{1 1}}, \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}}) d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\min\left(\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1},\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right)dx$

\int (ν_{1} + ν_{2})

$\int (\nu_1+\nu_2)$

Responda à sua primeira pergunta: Sim, um menos a distância total da variação é um limite mais baixo na soma das taxas de erro Tipo I + Tipo II. Esse limite inferior se aplica, independentemente do algoritmo de teste de hipótese escolhido.

$A$

(Estritamente falando, essa linha de raciocínio assume que seu teste de hipóteses é um procedimento determinístico. Mas mesmo se você considerar procedimentos aleatórios, é possível mostrar que o mesmo limite ainda se aplica.)

— DW
fonte