Intervalo de confiança em torno da razão de duas proporções

Tenho duas proporções (por exemplo, taxa de cliques (CTR) em um link em um layout de controle e CTR em um link em um layout experimental) e quero calcular um intervalo de confiança de 95% em torno da proporção dessas proporções.

Como eu faço isso? Eu sei que posso usar o método delta para calcular a variação dessa proporção, mas não tenho certeza do que fazer além disso. O que devo usar como ponto médio do intervalo de confiança (minha taxa observada ou a taxa esperada diferente) e quantos desvios padrão em torno dessa taxa devo tomar?

Devo estar usando a variação do método delta? (Eu realmente não me importo com a variação, apenas um intervalo de confiança.) Devo usar o Teorema de Fieller , usando o Caso 1 (já que estou fazendo proporções, acho que satisfaz o requisito de distribuição normal)? Devo apenas calcular uma amostra de bootstrap?

confidence-interval

— raegtin
fonte

Você tem um problema fundamental: a maioria das proporções tem uma chance positiva de ser zero, e a razão (de proporções independentes) tem uma chance positiva de ser indefinida. Isso pode apresentar sérias dificuldades para métodos aproximados (como o método delta) e sugere que as aproximações normais devem ser vistas com mais ceticismo e testadas com mais rigor do que o habitual.

— whuber

Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Métodos Estatísticos para Taxas e Proporções [1] discute o Risco Relativo, que é um quociente de duas taxas. Como não tenho o livro, posso apenas pesquisar o índice de assuntos e o índice, mas talvez sua biblioteca o tenha. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428

— cbeleites suporta Monica

Certamente um bootstrap de percentil seria o melhor método?

— Peter Ellis

A maneira padrão de fazer isso em epidemiologia (em que uma proporção de proporções é geralmente chamada de razão de risco ) é primeiro transformar a razão por log, calcular um intervalo de confiança na escala de log usando o método delta e assumindo uma distribuição normal, então volte a transformar. Isso funciona melhor em tamanhos moderados de amostra do que o método delta na escala não transformada, embora ainda se comporte mal se o número de eventos em ambos os grupos for muito pequeno e falhe completamente se não houver eventos em nenhum dos grupos.

Se existirem e sucessos nos dois grupos em cada totais e , então a estimativa óbvio para o rácio de proporções é $x_1$ $x_2$ $n_1$ $n_2$

\hat{θ} = \frac{x_{1} / n_{1}}{x_{2} / n_{2}} .

$\hat\theta = \frac{x_1/n_1}{x_2/n_2}.$

Usando o método de delta e assumindo que os dois grupos são independentes e os êxitos são binomial distribuído, é possível mostrar que Tomando a raiz quadrada dessa dá o erro padrão . Partindo do princípio de que é normalmente distribuída, um intervalo de confiança de 95% para

Var (registro \hat{θ}) = 1 / x_{1} - 1 / n_{1} + 1 / x_{2} - 1 / n_{2} .

$\operatorname{Var}(\log \hat\theta) = 1/x_1 - 1/n_1 +1/x_2 - 1/n_2.$

SE (\log \hat{θ})

$\operatorname{SE}(\log \hat\theta)$

\log \hat{θ}

$\log \hat\theta$

\log θ

$\log \theta$ é

Exponencializando Isto dá um intervalo de confiança de 95% para a razão de proporções

como

registro \hat{θ} \pm 1,96 SE (registro \hat{θ}) .

$\log \hat\theta \pm 1.96 \operatorname{SE}(\log \hat\theta).$

θ

$\theta$

\hat{θ} \exp [\pm 1,96 SE (registro \hat{θ})] .

$\hat\theta \exp\left[ \pm1.96 \operatorname{SE}(\log\hat\theta)\right].$

— uma parada
fonte

n_{1}

$n_1$

n_{2}

$n_2$

n_{1} p_{1}

$n_1 p_1$

n_{2} p_{2}

$n_2 p_2$

10

$10$

x_{2} = 0

$x_2=0$

x_{i} = n_{i}

$x_i=n_i$

1 / 2

$1/2$

x_{i}

$x_i$

1

$1$

n_{i}

$n_i$

p_{i} n_{i}

$p_i n_i$

4

$4$

n_{i}

$n_i$

@ whuber: "abordagem de correção de continuidade" - é o uso de 1/2 em particular um truque comum? (Ao contrário de alguns outros pequenos pseudo-contadores.) A maneira como você expressou faz com que 1/2 pareça um princípio de alguma forma =) - é?

— raegtin

x_{i}

$x_i$

n_{i}

$n_i$

Por que o erro padrão da raiz quadrada da variância, neste caso, não é o desvio padrão?

— 11133 Mikko

@ onestop Isso é implementado em qualquer pacote R?

— Bogdan Vasilescu